NLP
data_rec
这个作者很懒,什么都没留下…
展开
-
文本表示方法
在NLP诸多问题(如:文本分类等)中,文本表示不可或缺。这里博主枚举一些主流的文本表示方法。这里主要说的是基于文本内容的表示,顺带先扯扯基于行为的表示:不同的业务有不同的表示,基于行为的文本表示如SVD,LFM等,基于用户的行为日志(如新闻点击)学习用户和文本的的特征向量,url2vec利用用户对文本的点击序列,借鉴word2vec(每个文本看成一个word),训练文本的向量表示。基于文本原创 2016-11-28 17:55:06 · 10022 阅读 · 0 评论 -
WMD:基于词向量的文档相似度计算
EMD算法简介该部分引用自[1]Earth Mover’s Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定义,可以用来测量某分布之间的距离。EMD主要应用在图像处理和语音信号处理领域。EMD问题如下图所示给定两个签名(或者叫分布、特征量集合)P和Q,P为m个特征量Pi和其权重wPi的集合,记作P={(P1,wP1),(P2,wP2转载 2016-11-30 10:45:45 · 25364 阅读 · 2 评论