【转载】JoSE：球面上的词向量和句向量

最新推荐文章于 2022-08-06 11:09:52 发布

SUFEHeisenberg

最新推荐文章于 2022-08-06 11:09:52 发布

阅读量198

点赞数

分类专栏： NLP Paper Reading

原文链接：https://kexue.fm/archives/7063

版权

NLP 同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

Paper Reading

16 篇文章 0 订阅

订阅专栏

【转载】JoSE：球面上的词向量和句向量

本文转载自科学空间 Blog：

苏剑林. (Nov. 11, 2019). 《JoSE：球面上的词向量和句向量》[Blog post].

这篇文章介绍一个发表在NeurIPS 2019的做词向量和句向量的模型JoSE（Joint Spherical Embedding），论文名字是《Spherical Text Embedding》。JoSE模型思想上和方法上传承自Doc2Vec，评测结果更加漂亮，但写作有点故弄玄虚之感。不过笔者决定写这篇文章，是因为觉得里边的某些分析过程有点意思，可能会对一般的优化问题都有些参考价值。

优化目标

在思想上，这篇文章基本上跟Doc2Vec是一致的：为了训练句向量，把句子用一个id表示，然后把它也当作一个词，跟句内所有的词都共现，最后训练一个Skip Gram模型，训练的方式都是基于负采样的。跟Doc2Vec不一样的是，JoSE将全体向量的模长都归一化了（也就是只考虑单位球面上的向量），然后训练目标没有用交叉熵，而是用hinge loss：

$\max(0, m - \cos(\boldsymbol{u}, \boldsymbol{v}) - \cos(\boldsymbol{u}, \boldsymbol{d}) + \cos(\boldsymbol{u}', \boldsymbol{v}) + \cos(\boldsymbol{u}', \boldsymbol{d})\quad(1)$

其中 $u$ 是“中心词”的词向量， $v$ 是“上下文词”的词向量，它们分别来自两套词向量空间， $d$ 则是当前句的句向量，而 $u^\prime$ 负采样得到的“中心词”词向量，最后的 $m$ 是一个常数。以前做相似度模型的读者应该能很轻松读懂这个优化目标的含义，它就是希望句子内的“词-词-句”打分 $\cos(u,v)+\cos(u,d)$ 要高于“词-随机词-句”打分 $\cos(u′,v)+\cos(u′,d)$ ，但不需要太高，只要高出 $m$ 就行了。

假定 $u, v, d$ 都已经归一化的情况下，那么目标(1)就是（每个向量被假设为列向）：

$\max(0, m - \boldsymbol{v}^{\top}\boldsymbol{u} - \boldsymbol{d}^{\top}\boldsymbol{u} + \boldsymbol{v}^{\top} \boldsymbol{u}' + \boldsymbol{d}^{\top} \boldsymbol{u}')\quad(2)$

梯度下降

目标(1)或(2)其实并没有什么新鲜之处，跟大多数词向量的目标类似，都是用内积衡量词的相关性，只不过这里的向量归一化过，所以内积就是 $\cos$ ，至于hinge loss和交叉熵孰优孰劣，我倒觉得不会有什么太大差别。

事实上，笔者觉得文章比较有意思的是它后面对梯度的几何分析，在这里笔者用自己的话重复一下求解过程。设 $x$ 是全体 $u, v, d$ 向量中的其中一个，然后假设现在固定所有的其他向量，只优化 $x$ ，设总的loss为 $f (x)$ ，那这个优化过程有两种描述方式：

$\mathop{\arg\min}_{\boldsymbol{x},\,\Vert\boldsymbol{x}\Vert=1} f(\boldsymbol{x})\quad\text{或}\quad \mathop{\arg\min}_{\boldsymbol{\theta}} f\left(\frac{\boldsymbol{\theta}}{\Vert \boldsymbol{\theta}\Vert}\right) \quad(3)$

也就是说，我们可以将这个问题理解为带有约束 $∥ x ∥ = 1$ 的 $f (x)$ 最小化问题，也可以通过设x=θ/∥θ∥x=θ/‖θ‖将它转化为无约束的 $f(\frac{θ}{‖θ‖})$ 最小化问题。由于带约束的优化问题我们不熟悉，所以只好按照后一种方式来理解。

复杂模型不同的是，词向量算是一个比较简单的模型，所以我们最好手动求出它的梯度形式，然后编写对应函数进行梯度下降来优化，而不借助于一些自动求导工具。对于 $f(\frac{θ}{\|θ\|})$ ，我们不难求得：

$\nabla_{\boldsymbol{\theta}}\,f\left(\frac{\boldsymbol{\theta}}{\Vert \boldsymbol{\theta}\Vert}\right) = \frac{1}{\Vert\boldsymbol{\theta}\Vert}\left(\boldsymbol{I} - \boldsymbol{x}\boldsymbol{x}^{\top}\right)\nabla_{\boldsymbol{x}}\,f\left(\boldsymbol{x}\right) \quad(4)$

（详细过程为 $\nabla_{\boldsymbol{\theta}}\,f\left(\frac{\boldsymbol{\theta}}{\Vert \boldsymbol{\theta}\Vert}\right) =\nabla_{x}f(x)\cdot\nabla_{\theta}({\frac{\theta}{\|\theta\|}})=\nabla_{x}f(x)\cdot\frac{I\cdot\|\theta\|-\frac{\theta}{\|\theta\|}\cdot\theta^{\top}}{\|\theta\|^2}=\frac{1}{\|\theta\|}(I-xx{\top})\cdot \nabla_{x}f(x)$ ，其中 $(\|\theta\|)^{\prime}=\frac{\theta}{\|\theta\|}$ ，看作标量 $(\sqrt{\theta_1^2+\theta_2^2+\cdots+\theta_n^2})^{\prime}=\frac{\theta_i}{\sqrt{\theta_1^2+\theta_2^2+\cdots+\theta_n^2}}$ ）

根据上述结果，梯度下降的迭代公式为:

$\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_{t} - \eta_t\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right) \quad(5)$

其中 $\eta_t$ 是当前时刻的学习率，而因 $\frac{1}{‖θ‖}$ 由于只是个标量，所以被整合到学习率中了。然后我们也可以写出：

$\begin{aligned}\boldsymbol{x}_{t+1} = \frac{\boldsymbol{\theta}_{t+1}}{\Vert \boldsymbol{\theta}_{t+1}\Vert} =& \frac{\boldsymbol{\theta}_{t} - \eta_t\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \boldsymbol{\theta}_{t} - \eta_t\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert}\\ =& \frac{\boldsymbol{x}_{t} - \eta_t/\Vert\boldsymbol{\theta}\Vert\times\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \boldsymbol{x}_{t} - \eta_t/\Vert\boldsymbol{\theta}\Vert\times\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert} \end{aligned}\quad(6)$

再次将 $\frac{1}{\|\theta\|}$ 整合到学习率中，将得到只有 $x_t$ 的更新公式：

$\boldsymbol{x}_{t+1} = \frac{\boldsymbol{x}_{t} - \eta_t\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \boldsymbol{x}_{t} - \eta_t\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert}\quad(7)$

更新量的修正

对下降的梯度进行如下变换，首先有：

$\begin{aligned}\boldsymbol{g}=&\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\\ =&\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right) - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\\ =&\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right) - \boldsymbol{x}_t\Vert \nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\Vert \cos\left(\boldsymbol{x}_t,\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right) \text{（由}\|x_t\|=1 \text{保证）} \end{aligned} \quad(8)$

可以看到， $x_tx_t^{\top}\nabla_{x_t}f(x_t)$ 实际上就是向量 $\nabla_{x_t}f(x_t)$ $在$ $x_t$ 方向上的投影分量，而整个 $g$ 其实就是一个与 $x_t$ 垂直的向量，如下图示：

梯度的几何图示

在上图中，红色向量代表 $x_t$ ，蓝色向量代表 $\nabla_{x_t}f(x_t)$ ，如果没有 $x_t\|=1$ 的约束的话，更向量将直接由 $\nabla_{x_t}f(x_t)$ 决定，但是因为有了约束，所以更新量由 $g=(I-x_tx_t^{\top}\nabla_{x_t}f(x_t))$ 决定。然而，有下面两种不同的 $\nabla_{x_t}f(x_t)$ ，都可能导致同一个 $g$ ：

第一种情况，∇xf(x)跟x的方向很靠近

第二种情况，∇xf(x)跟x的方向几乎相反

第一种情况的 $\nabla_{x_t}f(x_t)$ 的方向跟 $x_t$ 很靠近，第二种情况则相反，但它们的 $g$ 是一致的。前面说了，如果没有约束的话， $\nabla_{x_t}f(x_t)$ 才是梯度，换言之 $-\nabla_{x_t}f(x_t)$ 就是合理的更新方向；现在有了约束， $-\nabla_{x_t}f(x_t)$ 虽然不能指出最合理的梯度方向，但直觉来看，它应该还是跟更新量有关的。

在第一种情况下， $-\nabla_{x_t}f(x_t)$ 跟 $x_t$ 方向差得比较远，意味着这种情况下更新量应该大一些；而第二种情况下， $-\nabla_{x_t}f(x_t)$ 跟 $x_t$ 方向比较一致，而我们只关心 $x_{t+1}$ 的方向，不关心它的模长，所以按理说这种情况下更新量应该小一些。

所以，哪怕这两种情况下 $g$ 都一样，我们还是需要有所区分，一个很自然的想法是：既然 $-\nabla_{x_t}f(x_t)$ 和 $x_t$ 的方向的一致性会对更新量的大小有所影响，所以不妨用

$1-\cos(-\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right),\boldsymbol{x}_t)=1+\frac{\boldsymbol{x}_t^{\top}\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert} \quad(9)$

来调节更新量，这个调节因子刚好满足“方向越一致，调节因子越小”的特性。自然就形成了最终的更新公式

方向越一致，cos值越大，-cos值越小，调节因子小

$\boldsymbol{x}_{t+1} = \frac{\boldsymbol{x}_{t} - \eta_t\left(1+\frac{\boldsymbol{x}_t^{\top}\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert}\right)\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \boldsymbol{x}_{t} - \eta_t\left(1+\frac{\boldsymbol{x}_t^{\top}\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)}{\left\Vert \nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert}\right)\left(\boldsymbol{I} - \boldsymbol{x}_t\boldsymbol{x}_t^{\top}\right)\nabla_{\boldsymbol{x}_t}\,f\left(\boldsymbol{x}_t\right)\right\Vert}\quad(10)$

故弄玄虚

有意思的地方讲完了，下面讲一下没有意思的地方了。对NLP有稍微深入一点了解的读者（看过Word2Vec的数学原理，推导过常规模型的梯度）应该会觉得，上面前两节内容并没有什么很深奥的内容，第三节的几何解释和学习率调节有点新颖，但也是有迹可循的内容。不过要是去看原论文的话，那感觉可能就完全不一样了，作者用“概率分布”、“黎曼流形上的优化”等语言，把上述本该比较容易理解的内容，描述得让人云里雾里，深有故弄玄虚之感。

首先，我最不理解的一点是，作者在一开始就做了一个不合理的假设（将词向量连续化），然后花了不少篇幅来论证 $p(v|u)∼e^{\cos(v,u)}$ 和 $p(u|d)∼e^{\cos(u,d})$ 对应着Von Mises–Fisher分布。然后呢？就没有然后了，后面的所有内容跟这个Von Mises–Fisher分布可以说没有半点关系，所以不理解作者写这部分内容的目的是什么。

接着，在优化那部分，作者说带约束 $‖ x ‖ = 1$ 的 $f (x)$ 最小化问题不能用梯度下降，所以只能用“黎曼梯度下降”，然后就开始“炫技”了：先说说黎曼流形，然后给出一般的指数映射，再然后给出黎曼梯度，一波高端操作下来，最后却只保留了一个大家都能懂的方案： $x=\frac{θ}{‖θ‖}$ 。这时我就很“服气”了，虽然作者的逻辑和推导都没有毛病，但是一波操作下来最后却给看众一个 $x=\frac{θ}{‖θ‖}$ 的朴素结果，那为什么不一开始就直接讨论 $f(x=\frac{θ}{‖θ‖})$ 的优化呢？非得要去黎曼流形上面把普通读者绕晕？

此外，我说的比较有意思的部分，就是更新量的几何解释以及得到的调节因子，作者也说得挺迷糊的。总之，笔者认为，论文的理论推导部分，很多地方都充斥着很多不必要的专业术语，无端加深了普通看众的理解难度。

最后强调一下，笔者从来不反对“一题多解”，也不反对将简单的内容深化、抽象化，因为“深化”、“抽象化”确实也可能获得更全面的认识，或者能显示各个分支之间的联系。但是这种“深化”、“抽象化”应该要建立在一个大多数人都能理解的简单解的基础上进行的，而不是为了“深化”、“抽象化”而特意舍去了大多数人能理解的简单解。

实验结果

吐槽归吐槽，在实验部分，JoSE做得还是很不错的。首先给出了JoSE的高效的C语言实现：

Github：https://github.com/yumeng5/Spherical-Text-Embedding

我试用了一下，训练确实很快速，训练好的词／句向量结果可以用gensim的KeyedVectors加载。另外我还看了一下源代码，很简练清晰，也方便做二次修改。

至于实验结果，论文给出的词／句向量评测上面，JoSE也是比较领先的：

词相似度评测

文章总结

本文分享了一个发表在NeurIPS 2019的文本向量模型JoSE，着重讲了一下笔者觉得有启发性的部分，并用自己的方法给出了推导过程。JoSE可以认为是Doc2Vec的自然变种，在细微之处做了调整，并且在优化方法上提出了作者自己的见解，除却一些疑似故弄玄虚的地方之外，还不失为一个可圈可点的工作。

SUFEHeisenberg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【转载】JoSE：球面上的词向量和句向量

【转载】JoSE：球面上的词向量和句向量本文转载自科学空间 Blog：苏剑林. (Nov. 11, 2019). 《JoSE：球面上的词向量和句向量》[Blog post].这篇文章介绍一个发表在NeurIPS 2019的做词向量和句向量的模型JoSE（Joint Spherical Embedding），论文名字是《Spherical Text Embedding》。JoSE模型思想上和方法上传承自Doc2Vec，评测结果更加漂亮，但写作有点故弄玄虚之感。不过笔者决定写这篇文章，是因为觉得里边的某
复制链接

扫一扫