2017年04月_范涛

原创深度学习之图像目标检测（Object Detection）

这里分享下之前关于深度学习在图像目标识别检测上一些主流技术以及在家装类别上识别效果demo。

2017-04-22 13:58:42 12231 1

原创深度学习之Autoencoder

告诉大家什么是Autoencoder？他的形式有哪几种？对于Autoencoder，相信大家开始听到这个名字并熟悉是因为深度学习火起来后。由于深度神经网络网络层数越来越多，反向传播算法（BP）在模型参数学习时候十分容易陷入局部最小和梯度消散，使得模型训练难度增大。Autoencoder正式因为这样的原因而被引入到深度学习中，通过先预训练的方式来缓解BP的一系列问题。

2017-04-22 13:17:08 2616

上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找，这种主要想说下另外一种情况，稠密向量如何进行快速相似查找呢？还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示，以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式，那如何从海量文本中快速查找出相似的Top N 文本呢?所以这里重点想说下Annoy（Approximate Nearest Neighbors Oh Yeah）这个快速算法，这个在实际应用中发现无论计算速度和准确

2017-04-19 21:27:02 23252 8

原创海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

这一节重点针对高维稀疏数据情况，说如何通过哈希技术进行快速进行相似查找。试想个案例，就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别，user是千万级别，这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢？同样海量文本场景，文本集合可以看成doc-word 稀疏矩阵，如何求解每个文档的Top N相似文档？

2017-04-19 21:11:08 7762

原创 LDA工程化之快速采样算法

LDA 是一种topic model，相信对大多数人工业界研发人员来说，LDA是一种让人望而却步的东西。LDA背后的数学理论是相对复杂的，但是LDA的最终计算公式却很简单，物理意义也很好理解。在互联网行业，主题模型经常用于query语义分析，广告query-bid触发匹配等。我们知道主流搜索公司，querylog日志数量是惊人的。如何快速进行再海量文本学习主题模型，至关重要，也直接影响到主题模型是否可以在工业界应用。这里重点介绍下目前业界用的比较多的几种快速采样算法，包括Sparse LDA，Alias L

2017-04-14 23:44:55 4198

原创突发事件检测： kleinberg 状态机模型

背景现实中，我们接触到各种文本信息，大多是以相应的事件来组织的。针对每个特定事件，涉及的相关文档都会有相应的时间信息，我们称这种时间信息为文档的到达时间。那针对某个特定事件，涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息，通过这种时序信息，我们能观察到事件是何时发生的，何时突然爆发，又何时衰退的，比如“天津爆炸案”。在TDT（topic

2017-04-08 17:42:48 9490 6

原创 EM-Tree + Paragraph2vector 实现大规模文档聚类

主要分享下《Parallel Streaming Signature EM-tree: A Clustering Algorithm for Web Scale Applications》这篇文章。15年末的时候，组内同事分享过这个算法，当时吸引大家眼球的是文章号称可以对亿级别的文档进行单机并行聚类，速度快并scaleable，支持单机并行和分布式。当时我正好在做事件聚类相关的项目，十分需要一

2017-04-08 15:26:01 2458

原创《Document Classiﬁcation by Inversion of Distributed Language Representations》分享

前面分享了word2vector，这里想再提下这篇文章，这篇文章是ACL2015上面的一篇paper。之前在用word2vector一直在想，怎么把词向量用在分类模型中？一篇文档可以用各个词的词向量加权平均或者直接用paragraph2vector构建文档向量，再利用lr，gbdt等分类模型就可以了。但是这里面还有些问题：（1）word2vector忽略了文档词序；（2）如果分类样本比较少，直

2017-04-07 22:15:46 1099

原创 word2vector & paragraph2vector 技术分享

前言在FastText 那章节，提到了word2vector。这里就专门分享下word2vector的一些技术细节吧。第一次深入调研word2vector是在15年下半年的时候，当时团队leader希望我来负责这块技术在文本挖掘项目的的落地。15年那会，我调研的时候，这块技术在国内已经传播很广泛了，各种技术应用和分享都很多，这对我来说是一件非常利好的事情（站在巨人的肩膀上，哈哈）

2017-04-07 21:38:18 4194

原创 Facebook：FastText 理解和在query意图识别的应用

Facebook 在2016年第一次对外公开FastText算法时候，应该是引起很大一番讨论，因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒，因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务，语料也是几百万。最开始拿的是Navie Bayies做baseline，Navie Bayies这种生成模型在大语料下不仅训练耗时，关键让人失望的是，预测速度变得也不那么快。基于当时的现状，我觉得我可以接受些许准确率损

2017-04-06 22:55:16 8239 2

原创深度学习之《社交网络问答系统-问题重复检测任务》实现

quora duplicate questions：Semantic Question Matching with Deep Learning 本文参考了quora duplicate questions 技术文档：https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learninghttp:

2017-04-05 19:50:40 4086 2

原创总结下这几年在文本挖掘领域的一些技术积累

今年春节过后，一直想找个时间把过去几年在文本挖掘领域在工业界的应用的一些看法和经验进行下总结。争取能按照一些线条来梳理吧，能形成一个相对完成行业解决方案那是最好。后面的总结可能但不局限于以下领域：文本意图的识别，大规模事件聚合，突发检测，文本主题挖掘等等。会对现实的工业界问题进行分解和合理的抽象，然后针对这些抽象进行讨论。这里面因为一些因素，更多是一种探讨，会涉及到各种常规的方法，

2017-04-05 19:41:49 1980

hero_fantao的专栏