WMD算法原理

最新推荐文章于 2021-12-15 16:40:05 发布

闲看蒹葭

最新推荐文章于 2021-12-15 16:40:05 发布

阅读量6.3k

点赞数 6

分类专栏：词向量文章标签： NLP

原文链接：https://jozeelin.github.io/2019/07/26/WMD/

版权

词向量专栏收录该内容

2 篇文章 0 订阅

订阅专栏

WMD(Word Mover’s Distance)算法原理

文章主要是自己在学习过程中摘录做的笔记。
参考连接:WMD算法详解

1. WMD的直观理解

两段文字 $D 1$ ， $D 2$ ，每段文字中的字都使用word2vec算法映射到embedding空间中。并且我们在 $D 1$ 中的每一个词都能找到 $D 2$ 中的某一个词，那么我们就可以找到每一对词在embedding空间中的距离，那么所有词对的距离之后就是WMD。那么问题来了，我怎么知道 $D 1 ， D 2$ 其中的词是怎么对应的，这种对应指数级别的组合？这也是WMD主要解决的问题。原理图如下：
在这里插入图片描述

2. WMD计算两文本基础流程：

首先对两个文本去除停用词
使用归一化BOW(词袋模型)方法来分别表示D1,D2
使用word2vec embedding来表示D1,D2中的每个词
在D1中所有词travel到D2中所有词，对于每一个D1中的词，它与D2中的词语义比较相近的，那么可以全部移动或移动距离多一些(权重值)；对于语义差异较大，则移动距离少一点或者不移动。用词向量距离乘以移动距离就是两个词的转移代价。
求全局的转移代价累加和最小值(D1中所有词全部转移到D2,D2中的所有词也全部转移到D1中)。
这个全局转移代价累加和的最小值就是D1,D2的相似度。

3. WMD算法的数学描述

假设有一个预训练好的word2vec词向量矩阵 $\in \mathcal{R}^{d\times n}$ ， $n$ 表示词典大小， $d$ 表示词向量维度。
如果词 $i$ 在文本中出现的次数 $c_i$ ，那么我们定义词 $i$ 的归一化词频为：
$d_i = \frac{c_i}{\sum_{j=1}^n c_j}$
$d_i$ 为单词 $i$ 在文档中的权重， $c_i$ 为出现的次数。
第 $i$ 个词和第 $j$ 个词的距离表示为：
$c(i,j) = \|x_i-x_j\|_2$ ，其中 $x_i，x_j$ 为embedding后的词向量。 $c (i, j)$ 表示 $i ， j$ 之间的travel cost
向量 $d ， d^{'}$ 分别为用nBow表示的两段文本。允许 $d$ 中任意的词 $d_i$ 转化为 $d^{'}$ 的任意词 $d_i{'}$ ，这样得到一个转移矩阵 $\in R^{n\times n}$ ，每个元素 $T_{ij} \ge 0$ 表示有多少词 $i$ 从 $d$ 转移成了 $d^{'}$ 中的词 $j$ 。最终我们需要把 $d$ 中的所有词都转为 $d^{'}$ 。而两个文档之间的 Travel cost 既可以表达为 [公式] 。整体表达式如下:
$\min_{T\ge 0} \sum_{i,j=1}^n T_{ij}c(i,j)$
$s . t .$

$\sum_{j=1}^n T_{ij}=d_i \ , \forall i \in \{1,\cdots,n\} ,约束1：d中的第i个词的流出总和需要等于d_i$
$\sum_{i=1}^n T_{ij} = d^{'}_j \ , \forall j \in \{1,\cdots,n\},约束2：d'中的第j个词所有流入词总量需要等于d_j{'}$
整优化过程就是最小化目前，找到最合适的 $T$ 转化矩阵。这个优化过程可以通过线性规划的求解器求解，最终算法复杂度为 $O(p{3}logp)， p$ 为文档中非重复词的个数整个过程示意图如下：
在这里插入图片描述
以上的线性规划问题是EMD算法中的一种特殊情况，具体求解过程可参考EMD算法。

4. 算法优化加速

4.1 WCD （word Centoid Distance）

根据三角不等式可得：
$\begin{aligned} \sum_{i,j=1}^n T_{ij} c(i,j) &= \sum_{i,j=1}^n T_{ij}\|x_i-x_j^{'}\|_2 \\ &= \sum_{i,j=1}^n \|T_{ij}(x_i-x_j^{'})\|_2 \\ &\ge \|\sum_{i,j=1}^n T_{ij}(x_i-x_j^{'})\|_2 \\ &=\|\sum_{i=1}^n(\sum_{j=1}^n T_{ij})x_i-\sum_{j=1}^n(\sum_{i=1}^n T_{ij})x_j^{'}\|_2\\ &= \|\sum_{i=1}^n d_ix_i - \sum_{j=1}^n d_j^{'}x_j^{'}\|_2\\ &= \|X\mathrm{d} - X\mathrm{d}^{'}\|_2 \end{aligned}$
WCD的式子 $\|X\mathrm{d} - X\mathrm{d}^{'}\|_2$ 是 $d, d^{'}$ 之间WMD的lower bound。对应时间复杂度为 $O (d p)$ ， $d$ 为词向量维度， $p$ 为两文档非重复词个数。

4.2 RWMD（relaxed word moving distance）

尽管WCD的时间复杂度很低，但是边界过于宽松，无法很好的近似WMD。因此，这里使用更加tight的下界RWMD。RWMD需要计算两次，基于WMD目标函数，分别去掉两个约束条件中的一个，然后求解最小值，使用两个最小值中的最大值作为WMD的近似值。
比如，去掉第二个约束条件，可得：

$\min_{T\ge 0} \sum_{i,j=1}^n T_{ij}c(i,j)$
$s . t .$
$\sum_{j=1}^n T_{ij} = d_i \ , \forall i \in \{1,\cdots,n\}$
这个问题的最优解是，对于文本D1中的一个词，找到另一个文本D2中与之最相近的一个词，全部转移到这个词。即：
$T_{ij}^{*} = \left\{ \begin{aligned}&d_i \ \mathrm{if \ j=\arg\min_jc(i,j)} \\ &0 \ \mathrm{otherwise}\end{aligned} \right .$
使用 $l_1(\mathrm{d},\mathrm{d^{'}})$ 和 $l_2(\mathrm{d},\mathrm{d^{'}})$ 分别表示，去掉不同约束条件所计算得到的最小值，RWMD最终的最小值为：
$l_r(\mathrm{d},\mathrm{d^{'}}) = \max(l_1(\mathrm{d},\mathrm{d^{'}}),l_2(\mathrm{d},\mathrm{d^{'}}))$
这个的时间复杂度为 $O(p^2)$