From Word Embeddings To Document Distances

最新推荐文章于 2024-08-15 09:36:21 发布

sinat_34080511

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量1.7k

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/sinat_34080511/article/details/69665023

版权

nlp 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

论文提出了一个新的计算文本文档距离的方法：Word Mover‘s Distance(WMD)。本文的工作也是基于词向量，从句子的局部共现中学习语义上有意义的词的表示。WMD距离将两个文本文档的不同描述为一篇文档中嵌入的词“travel”到达另一个文档中嵌入的词所需的最小距离量。这个距离矩阵可以看作Earth Mover’s Distance（图像中一个计算距离的算法）的特例，并且这个矩阵没有超参数，是straight-forword的。

最常见的两种文档表示方法是BOW和TF-IDF，但这种特征不适合文档距离计算，因为经常出现near-orthogonality。另一个缺点是这种表示不能抓住独立词的距离。比如“Obama speaks to the media in Inlinois"和"The President greets the press in Chicago"。尽管这些句子没有相同的词，但它们传达几乎相同的信息，这是BOW不能表示的。

也有很多方法通过学习文档的隐低维表示来避免这个问题，LSI特征分解BOW特征空间，LDA概率上将相似的词划分到topics，将文档表示为topics上的分布。同时，也有很多BOW/TF-IDF的变种。尽管这些方法产生一个比BOW更coherent的文档表示，但它们往往不能提高在基于距离的任务上BOW的性能。

本篇论文提出的WMD利用word2vec的特性，将文本文档表示为一个weighted point cloud of embedded words。两个文档A和B之间的距离定义为A中所有的词移动精确匹配到文档B中点云的最小累积距离。WMD中的优化问题就是well-studied Earth Mover距离传输问题的特殊情况，因此，可以利用已有的方法解决。

由d转换到d‘，转换矩阵是T。

文档距离度量：

文本相似度计算这个问题的核心：要计算文本相似度，首先要找到一个文本的表示，比如BOW，TFIDF，主题模型等，只要能表征文本就可以。通过计算这种表示的距离来衡量文本的相似度，把问题转换为距离计算。度量方法：https://en.wikipedia.org/wiki/Metric_(mathematics)

方法一：

TFIDF+余弦相似度：http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

通过gensim包实现：http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C

论文地址：http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf

https://en.wikipedia.org/wiki/Earth_mover%27s_distance

http://mkusner.github.io/posters/WMD_Poster.pdf

https://www.zhihu.com/question/29978268

https://www.zhihu.com/question/29094227