素质云笔记/Recorder...

Research Area:计算机视觉舆情 + 知识图谱

排序:
默认
按更新时间
按访问量

创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。 CVaaS 计算机视觉即服务的理念介绍 观点来源于:极视角科技联合创始人 罗韵 CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务,而...

2017-05-13 15:03:20

阅读数:2348

评论数:1

R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

经统专业看到预测的packages都是很眼馋的。除了之前的forecast包,现在这个prophet功能也很强大。本packages是由机器之心报道之后,抽空在周末试玩几小时。一些基本介绍可见机器之心的《业界 | Facebook开源大规模预测工具Prophet:支持Python...

2017-02-26 20:53:05

阅读数:9869

评论数:4

cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。 C...

2017-02-05 19:06:55

阅读数:7876

评论数:6

迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)

说起来这门技术大多是秀的成分高于实际,但是呢,其也可以作为图像增强的工具,看到一些比赛拿他作训练集扩充,还是一个比较好的思路。如何在caffe上面实现简单的风格转化呢?好像网上的博文都没有说清楚,而且笔者也没有GPU机器,于是乎,走上了漫漫的研究逼死自己之路...作者实践机器配置:服务器:ubun...

2017-01-02 14:41:27

阅读数:7396

评论数:9

R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法

接着之前写的并行算法parallel包,parallel相比foreach来说,相当于是foreach的进阶版,好多东西封装了。而foreach包更为基础,而且可自定义的内容很多,而且实用性比较强,可以简单的用,也可以用得很复杂。笔者将自己的学习笔记记录一下。R︱并行计算以及提高运算效率的方式(p...

2016-11-26 15:11:08

阅读数:3068

评论数:0

基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

(~免费广告位一则~) AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点: ⒈ 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面...

2018-11-12 22:22:58

阅读数:581

评论数:2

文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性

现实情况中,很多机器学习训练集会遇到样本不均衡的情况,应对的方案也有很多种。 笔者把看到的一些内容进行简单罗列,此处还想分享的是交叉验证对不平衡数据训练极为重要。 文章目录1 样本不平衡的解决思路1.2 将不平衡样本当作离群点1.2 欠采样/过采样1.3 训练策略的优化1.3.1 Focal_L...

2018-11-01 14:24:26

阅读数:113

评论数:0

比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案

本篇为资源汇总,一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。 传统的有:TFIDF/LDA/LSI等 偏深度的有:word2vec/glove/fasttext等 还有一些预训练方式:elmo / bert 文章目录@[toc]1 之前的几款词向量介绍与训练帖子...

2018-10-31 21:48:09

阅读数:210

评论数:0

极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。 其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解 glove可见:极简使用︱Gl...

2018-10-13 19:37:17

阅读数:501

评论数:0

极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前词向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解) 官方glove教程比较啰嗦,可能还得设置一些参数表,操作不是特别方便。 笔者使用的时...

2018-10-12 16:27:34

阅读数:208

评论数:0

Rstudio Server + Docker + tensorflowR - 云端安装与使用R语言与GPU深度学习

笔者本来想在阿里云上部署nvidia - docker + Rstudio Server,然后使用R语言来进行深度学习。本篇是在该过程中产生的经验之谈。 文章目录1 准备阶段2 Rstudio Server nvidia-docker 环境2.1 docker初始化的问题2.2 docker...

2018-09-28 15:49:36

阅读数:139

评论数:0

ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为: 事件抽取(三元组) 观点抽取 “语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 py...

2018-09-19 10:57:44

阅读数:300

评论数:0

neo4j︱neo4j批量导入neo4j-import (五)

neo4j数据批量导入 目前主要有以下几种数据插入方式:(转自:如何将大规模数据导入Neo4j) Cypher CREATE 语句,为每一条数据写一个CREATE Cypher LOAD CSV 语句,将数据转成CSV格式,通过LOAD CSV读取数据。 官方提供的Java API —— ...

2018-09-05 16:04:38

阅读数:431

评论数:0

练习题 - 基于快速文本标题匹配的知识问答实现(二,实现篇)

承接练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇),前篇主要把qdr这个项目解剖了一下,现在开始应用做一下问答。 可以看到qdr这个项目的特点是:可以快速比对两个文本之间的相似性,而且计算tfidf、bm25、lm三款模型的速度很快。 那么本轮知识问答的设计源于此: 先储备一...

2018-08-30 22:30:19

阅读数:220

评论数:0

练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)

该练习题来的很蹊跷,笔者在看entity embeddings的东西,于是看到了16年的这篇文章:Learning Query and Document Relevance from a Web-scale Click Graph,想试试效果,就搜到了qdr这个项目,然后试了试,虽然enti...

2018-08-30 21:31:49

阅读数:264

评论数:2

流水账︱Elmo词向量中文训练过程杂记

1 elmo是什么? 参考:《文本嵌入的经典模型与最新进展》 人们已经提出了大量可能的词嵌入方法。最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。 虽然有些人通过结合语义或句法知识的有监督来增强这些无...

2018-08-21 22:53:21

阅读数:3775

评论数:9

随笔记︱交互式pyecharts的简单使用

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图,我写了这个项目。以下是最新版echart的靓图。当然,py...

2018-08-07 22:38:50

阅读数:476

评论数:0

推荐系统︱基于bandit的主题冷启动在线学习策略

推荐系统里面有两个经典问题:EE问题和冷启动问题。 什么是EE问题?又叫exploit-explore问题。exploit就是:对用户比较确定的兴趣,当然要利用开采迎合,好比说已经挣到的钱,当然要花;explore就是:光对着用户已知的兴趣使用,用户很快会腻,所以要不断探索用户新的兴趣才行...

2018-07-26 17:46:29

阅读数:361

评论数:0

pySpark | pySpark.Dataframe使用的坑 与 经历

笔者最近在尝试使用PySpark,发现pyspark.dataframe跟pandas很像,但是数据操作的功能并不强大。由于,pyspark环境非自建,别家工程师也不让改,导致本来想pyspark环境跑一个随机森林,用 《Comprehensive Introduction to Apache S...

2018-07-05 16:43:56

阅读数:1798

评论数:0

模型集成 | 14款常规机器学习 + 加权平均模型融合

模型融合的方法很多,Voting、Averaging、Bagging 、Boosting、 Stacking,那么一些kaggle比赛中选手会选用各种方法进行融合,其中岭回归就是一类轻巧且非常有效的方法,当然现在还有很多更有逼格的方法。本文是受快照集成的启发,把titu1994/Snapshot-...

2018-07-03 22:59:24

阅读数:743

评论数:0

提示
确定要删除当前文章?
取消 删除