文本语义相似度衡量方法——词移距离（Word Mover's Distance,WMD）-CSDN博客

本文链接：https://blog.csdn.net/qq_19672707/article/details/105713359

词移距离

什么是词移距离
- 如何解释词汇移动的距离呢
为什么采用词移距离衡量文本相似度
怎么算词移距离

什么是词移距离

词移距离（Word Mover’s Distance，WMD）顾名思义就是词汇移动的距离，它的提出本质上是用于衡量任意两个文本之间的语义相似度所提出的。当然从名字就可以了解到，它本身其实就是一个距离，本质上与欧氏距离和曼哈顿距离没有区别。

同时，也符合距离越大相似度越低，距离越小相似度越高的原则。

如何解释词汇移动的距离呢

两个文档A和B，A中的词汇从欧式空间上分别移动到B中词汇的位置的距离总和就可以认为是一种词移距离。
在这里插入图片描述
上图就可以理解为词移距离的示意图。
doc1中的word1移动到doc2中所有词汇的欧式距离之和，将所有doc1中的词汇均进行计算，就可以得到对应的词移距离。
$WMD(doc1,doc2)=\sum_{i,j=1}^nT_{ij}c(i,j)$
其中的 $i j$ 代表了doc1与doc2中不同的词汇， $T_{ij}$ 代表了不同词汇之间的一个权重。

为什么采用词移距离衡量文本相似度

由于SimHash，编辑距离、最长公共子序列，最长公共子串，等等。包括用向量表示后的文本进行欧氏距离和余弦相似度的计算等均是没有直接针对词进行计算，并且反应的是文本本身的语义相似度。
词移距离的出现无疑是填补了这个空缺，它从本质上要优于字面相似度的方法，也比利用词袋模型表示后的文本相似度有较好的语义度量。