自然语言处理 —— 2.3 词嵌入的特性

最新推荐文章于 2024-02-24 20:00:43 发布

然后就去远行吧

最新推荐文章于 2024-02-24 20:00:43 发布

阅读量290

点赞数

分类专栏：循环神经网络

本文链接：https://blog.csdn.net/qq_37388085/article/details/103518422

版权

循环神经网络专栏收录该内容

17 篇文章 1 订阅

订阅专栏

词嵌入还有一个特性是能帮助实现类比推理，尽管类比推理可能不是自然语言处理中最重要的存在，不过它能帮助人们理解词嵌入做了什么以及词嵌入能做什么，让我们来一探究竟。
在这里插入图片描述
上图是一系列你希望词嵌入可以捕捉的单词的特征表示，假如提出一个问题，man如果对应woman，那么king应该对应什么？我们都应该能猜到，king应该对应queen。能否有一种算法来自动推导出这种关系？下面就是实现的方法。

我们用一个四维向量来表示man，我们用 $e_{5391}$ 来表示，这里先把它称为 $e_{man}$ ，woman的嵌入向量称它为 $e_{woman}$ ，对king和queen也是用一样的表示方法。在该例中，假设你用的是四维的嵌入向量而不是比较典型的50到10000维的向量，这些向量有一个有趣的特性，就是假如你有向量 $e_{man}$ 和 $e_{woman}$ ，将它们进行减法运算，可以得到 $e_{man}-e_{woman}=[-2,0,0,0]$ 类似地，假如你用 $e_{king}$ 减去 $e_{queen}$ ，最后也会得到一样的结果 $e_{king}-e_{queen}=[-2,0,0,0]$ 这个结果表示man和woman的主要差异是性别上的差异，而king和queen的差异也是性别上的差异。

所以得出这种类比推理的结论的方法就是当算法被问及man对woman相对于king对什么时，算法所做的就是 $e_{king}-e_{queen}$ ，然后找出一个向量，也就是找出一个词，使得 $e_{man}-e_{woman}\approx e_{king}-e_{?}$ ，也就是说，当这个新词是queen时，式子的左边会近似地等于右边。

这种思想首先是被 $\space Mikolov$ 和 $\space Yih$ ，还有 $\space Zweig$ 提出的，这是词嵌入领域影响力最为惊人和显著的成果之一，这种思想帮助研究者们对词嵌入领域建立了更深刻的理解，让我们来正式地探讨一下应该如何把这种思想写成算法。

在图中，词嵌入向量在一个可能有300维的空间里，于是单词man代表的就是空间中的一个点，另一个单词woman代表空间中的另一个点，单词king也代表一个点，还有单词queen。

事实上，我们前面展示了， $e_{man}-e_{woman}\approx e_{king}-e_{queen}$ 。为了得出这样的类比推理，计算当man对于woman时，king对于什么。你能做的就是找到单词w来使得等式 $e_{man}-e_{woman}\approx e_{king}-e_{w}$ 成立，最大化 $e_w$ 和 $e_{king}-e_{man}+e_{woman}$ 的相似度。我们有一些测试 $e_w$ 和 $e_{king}-e_{man}+e_{woman}$ 相似度的相似度函数，然后通过方程找到一个使得相似度最大的权重。如果结果理想的话会得到单词queen。

值得注意的是，这种方法真的有效。如果你学习一些词嵌入，通过算法来找到使得相似度最大化的单词w，你确实可以得到完全正确的答案，不过这取决于过程中的细节。如果你查看一些研究论文，就不难发现，通过这种方法来做类比推理，准确率大概只有30%~70%。只要算法猜中了单词，就把这次计算视为正确，从而计算出正确率。在该例子中，算法选出了单词queen。

在进行下一步之前，需要再说明一下，我们说过用 $t - S N E$ 算法来将单词可视化， $t - S N E$ 算法所做的就是把这些300维的数据用一种非线性的方式映射到2维平面上，可以得知 $t - S N E$ 中这种映射很复杂，而且很非线性，在知道 $t - S N E$ 映射之后，你不能总是期望使等式成立的关系像一个平行四边形。

通过 $t - S N E$ 映射出来的图像可能是正确的，但在大多数情况下，由于 $t - S N E$ 的非线性映射，就没法再指望这种平行四边形了。很多这种平行四边形的类别关系在 $t - S N E$ 映射中都会失去原貌。

这里再列举一个最常用的相似度函数，这个最常用的相似度函数叫做余弦函数。在余弦相似度中，假如在向量u和v之间定义相似度，相似度计算公式为 $sim(u,v)=\frac{u^Tv}{||u||_2||v||_2}$ 现在我们先不看分母，分子中其实就是向量u和v的内积，如果u和v非常相似，那么他们的内积将会很大。把整个式子叫做余弦相似度，其实就是因为该式是u和v的夹角的余弦值，所以这个公式就是计算两个向量的夹角 $\phi$ 角的余弦。当两个向量的夹角是0时，余弦相似度就是1，当夹角是90度时，余弦相似度就是0。当它们是180度时，图像完全跑到了相反的方向，这时相似度等于-1，这就是为什么余弦相似度对于这种类比工作能起到非常好的效果。