From Word Embeddings To Document Distances

论文提出了一个新的计算文本文档距离的方法:Word Mover‘s Distance(WMD)。本文的工作也是基于词向量,从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance(图像中一个计算距离的算法)的特例,并且这个矩阵没有超参数,是straight-forword的。

最常见的两种文档表示方法是BOW和TF-IDF,但这种特征不适合文档距离计算,因为经常出现near-orthogonality。另一个缺点是这种表示不能抓住独立词的距离。比如“Obama speaks to the media in Inlinois"和"The President greets the press in Chicago"。尽管这些句子没有相同的词,但它们传达几乎相同的信息,这是BOW不能表示的。

也有很多方法通过学习文档的隐低维表示来避免这个问题,LSI特征分解BOW特征空间,LDA概率上将相似的词划分到topics,将文档表示为topics上的分布。同时,也有很多BOW/TF-IDF的变种。尽管这些方法产生一个比BOW更coherent的文档表示,但它们往往不能提高在基于距离的任务上BOW的性能。

本篇论文提出的WMD利用word2vec的特性,将文本文档表示为一个weighted point cloud of embedded words。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD中的优化问题就是well-studied Earth Mover距离传输问题的特殊情况,因此,可以利用已有的方法解决。

由d转换到d‘,转换矩阵是T。

文档距离度量:


文本相似度计算这个问题的核心:要计算文本相似度,首先要找到一个文本的表示,比如BOW,TFIDF,主题模型等,只要能表征文本就可以。通过计算这种表示的距离来衡量文本的相似度,把问题转换为距离计算。度量方法:https://en.wikipedia.org/wiki/Metric_(mathematics)

方法一:

TFIDF+余弦相似度:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

通过gensim包实现:http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C


论文地址:http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf

https://en.wikipedia.org/wiki/Earth_mover%27s_distance


http://mkusner.github.io/posters/WMD_Poster.pdf


https://www.zhihu.com/question/29978268


https://www.zhihu.com/question/29094227

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值