word2vec相似度计算_从EMD、WMD到WRD：文本向量序列的相似度计算

最新推荐文章于 2023-12-28 16:25:19 发布

weixin_39637921

最新推荐文章于 2023-12-28 16:25:19 发布

阅读量494

点赞数

文章标签： word2vec相似度计算

v2-727292568347df33d569ee920f21db94_1440w.jpg?source=172ae18b

作者： @苏剑林

单位：追一科技

研究方向：NLP、神经网络

在NLP中，我们经常要去比较两个句子的相似度，其标准方法是想办法将句子编码为固定大小的向量，然后用某种几何距离（欧氏距离、cos距离等）作为相似度。这种方案相对来说比较简单，而且检索起来比较快速，一定程度上能满足工程需求。

此外，还可以直接比较两个变长序列的差异性，比如编辑距离，它通过动态规划找出两个字符串之间的最优映射，然后算不匹配程度；现在我们还有Word2Vec、BERT等工具，可以将文本序列转换为对应的向量序列，所以也可以直接比较这两个向量序列的差异，而不是先将向量序列弄成单个向量。

后一种方案速度相对慢一点，但可以比较得更精细一些，并且理论比较优雅，所以也有一定的应用场景。本文就来简单介绍一下属于后者的两个相似度指标，分别简称为WMD、WRD。

Earth Mover's Distance

本文要介绍的两个指标都是以Wasserstein距离为基础，这里会先对它做一个简单的介绍，相关内容也可以阅读笔者旧作《从Wasserstein距离、对偶理论到WGAN》。Wasserstein距离也被形象地称之为“推土机距离”（Earth Mover's Distance，EMD），因为它可以用一个“推土”的例子来通俗地表达它的含义。

最优传输

假设在位置

处我们分布有

那么多的土，简单起见我们设土的总数量为1，即

，现在要将土推到位置

上，每处的量为

，而从i推到j的成本为

，求成本最低的方案以及对应的最低成本。

这其实就是一个经典的最优传输问题。我们将最优方案表示为

，表示这个方案中要从i中把

数量的土推到j处，很明显我们有约束：

所以我们的优化问题是：

参考实现

看上去复杂，但认真观察下就能发现上式其实就是一个线性规划问题——在线性约束下求线性函数的极值。而scipy就自带了线性规划求解函数linprog，因此我们可以利用它实现求Wasserstein距离的函数：

import

读者可以留意到，在传入约束的时候用的是

，也就是去掉了最后一个约束。这是因为

，所以 (1) 中的等式约束本身存在冗余，而实际计算中有时候可能存在浮点误差，导致冗余的约束之间相互矛盾，从而使得线性规划的求解失败，所以干脆去掉最后一个冗余的约束，减少出错的可能性。

Word Mover's Distance

很明显，Wasserstein距离适合于用来计算两个不同长度的序列的差异性，而我们要做语义相似度的时候，两个句子通常也是不同长度的，刚好对应这个特性，因此很自然地就会联想到Wasserstein距离也许可以用来比较句子相似度，而首次进行这个尝试的是论文《From Word Embeddings To Document Distances》。

基本形式

设有两个句子

，经过某种映射（比如Word2Vec或者BERT）后，它们变成了对应的向量序列

，现在我们就想办法用Wasserstein距离来比较这两个序列的相似度。

根据前一节的介绍，Wasserstein距离需要知道

三个量，我们逐一把它们都定义好即可。由于没有什么先验知识，所以我们可以很朴素地将让

，所以现在还剩

。

显然，

代表着第一个序列的向量

与第二个序列的向量

的某种差异性，简单起见我们可以用欧氏距离

，所以两个句子的差异程度可以表示为：

这便是Word Mover's Distance（WMD）（推词机距离？？），大概可以理解为将一个句子变为另一个句子的最短路径，某种意义上也可以理解为编辑距离的光滑版。实际使用的时候，通常会去掉停用词后再计算WMD。

Word Mover&amp;#39;s Distance的示意图，来自论文《From Word Embeddings To Document Distances》

参考实现

参考实现如下：

def

下界公式

如果是检索场景，要将输入句子跟数据库里边所有句子一一算WMD并排序的话，那计算成本是相当大的，所以我们要尽量减少算WMD的次数，比如通过一些更简单高效的指标来过滤掉一些样本，然后才对剩下的样本算WMD。

幸运的是，我们确实可以推导出WMD的一个下界公式，原论文称之为Word Centroid Distance（WCD）：

也就是说，WMD大于两个句子的平均向量的欧氏距离，所以我们要检索WMD比较小的句子时，可以先用WCD把距离比较大的句子先过滤掉，然后剩下的采用WMD比较。

Word Rotator's Distance

WMD其实已经挺不错了，但非要鸡蛋里挑骨头的话，还是能挑出一些缺点来：

1、它使用的是欧氏距离作为语义差距度量，但从Word2Vec的经验我们就知道要算词向量的相似度的话，用cos往往比欧氏距离要好；

2、WMD理论上是一个无上界的量，这意味着我们不大好直观感知相似程度，从而不能很好调整相似与否的阈值。

为了解决这两个问题，一个比较朴素的想法是将所有向量除以各自的模长来归一化后再算WMD，但这样就完全失去了模长信息了。最近的论文《Word Rotator's Distance: Decomposing Vectors Gives Better Representations》则巧妙地提出，在归一化的同时可以把模长融入到约束条件p,q里边去，这就形成了WRD。

基本形式

首先，WRD提出了“词向量的模长正相关于这个词的重要程度”的观点，并通过一些实验结果验证了这个观点。事实上，这个观点跟笔者之前提出的simpler glove模型的观点一致，参考《更别致的词向量模型(五)：有趣的结果》。而在WMD中，

某种意义上也代表着对应句子中某个词的重要程度，所以我们可以设：

然后

就用余弦距离：

得到：

这就是Word Rotator's Distance（WRD）了。由于使用的度量是余弦距离，所以两个向量之间的变换更像是一种旋转（rotate）而不是移动（move），所以有了这个命名；同样由于使用了余弦距离，所以它的结果在[0,2]内，相对来说更容易去感知其相似程度。

参考实现

参考实现如下：

def

下界公式

同WMD一样，我们也可以推导出WRD的一个下界公式：

不过这部分内容并没有出现在WRD的论文中，只是笔者自行补充的。

小结

文本介绍了两种文本相似度算法WMD、WRD，它们都是利用Wasserstein距离（Earth Mover's Distance，推土机距离）来直接比较两个不定长向量的差异性。这类相似度算法在效率上会有所欠缺，但是理论上比较优雅，而且效果也颇为不错，值得学习一番。

#投稿通道#

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

投稿方式：

• 方法一：在PaperWeekly知乎专栏页面点击“投稿”，即可递交文章

• 方法二：发送邮件至：hr@paperweekly.site ，所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

加入社区：http://paperweek.ly

微信公众号：PaperWeekly

新浪微博：@PaperWeekly

weixin_39637921

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
word2vec相似度计算_从EMD、WMD到WRD：文本向量序列的相似度计算

作者： @苏剑林单位：追一科技研究方向：NLP、神经网络在NLP中，我们经常要去比较两个句子的相似度，其标准方法是想办法将句子编码为固定大小的向量，然后用某种几何距离（欧氏距离、cos距离等）作为相似度。这种方案相对来说比较简单，而且检索起来比较快速，一定程度上能满足工程需求。此外，还可以直接比较两个变长序列的差异性，比如编辑距离，它通过动态规划找出两个字符串之间的最优映射，然后算不匹配程度；现...
复制链接

扫一扫