论文解读-SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

最新推荐文章于 2023-08-20 22:21:26 发布

丘文波

最新推荐文章于 2023-08-20 22:21:26 发布

阅读量266

点赞数 1

分类专栏： NLP经典论文解读

本文链接：https://blog.csdn.net/qiuwenbogdut/article/details/117779455

版权

NLP经典论文解读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.论文摘要

该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法：使用维基百科等无标签的语料训练得到词向量，然后通过词向量加权平均获得句子表征向量。然后使用PCA/SVD再对句向量进行一次修正得到最终得句向量。

2. 计算句子表征的算法

先来看下论文中提出的句子表征的算法：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MLXldGtS-1623306848424)(./1620303452165.png)]
上面的算法过程中有两个重点：
• 为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征？（公式(1)）
• 为什么得到句子的初始向量之后要做一个修正（公式(2)）

论文围绕着这两个问题进行了解答。

3. 随机游走模型

论文首先介绍了随机游走模型：将句子生成看出是一个动态过程，在第t时刻下的语篇向量 $c_t$ 决定生成第t个词。语篇向量表示的是这个时刻句子语义。不同时刻的语篇向量的游走变化会导致生成不同的词。词典中的每一个词都有一个词向量 $v_w$ 。

一个时刻t ，生成的词是w的概率，可以由如下的公式表示:
$\operatorname{Pr}\left[w \text { emitted at time } t \mid c_{t}\right] \propto \exp \left(\left\langle c_{t}, v_{w}\right\rangle\right) .$

假定在文本生成的过程中，语篇向量是在做一个缓慢的游走（意味着 $c_t$ 添加一个很小的位移向量就能获得 $c_{t+1}$ ）,所以相近的词对应的语篇向量都是比较接近的。

假设一句话各个位置单词出现时，语篇向量变化不大，所以将使用一个固定的语篇向量 $c_s$ 来近似表示各个时刻的语篇向量 $c_t$ 。

$\operatorname{Pr}\left[w \text { emitted at time } t \mid c_{s}\right] \propto \exp \left(\left\langle c_{s}, v_{w}\right\rangle\right) .$

从上述公式可以看出，某个时刻的语篇向量 $c_s$ 和词向量 $v_w$ 内积越大,该词越有可能出现。

对于停用词，在不同的句子中都有可能出现，所以这些停用词的词向量的模长尽量长一点，才能与不同的语篇向量的内积都比较大。

论文对上面的模型进行了两个主要的修改:
$\begin{matrix} \operatorname{Pr}\left[ w\text{ emitted in sentence } s\mid c_{s}\right] =\alpha p(w)+(1-\alpha )\frac{\exp\left(\left< \tilde{c}_{s} ,v_{w}\right> \right)}{Z_{\tilde{c}_{s}}}\\ \text{where }\tilde{c}_{s} =\beta c_{0} +(1-\beta )c_{s} ,c_{0} \perp c_{s}\\ where\ Z_{\tilde{c}_{s}} =\sum _{i}^{n}\left(\left< \tilde{c}_{s} ,v_{w_{i}}\right> \right) \end{matrix}$

(1) 增加平滑项
在模型中引入一个加法项 $α p (w)$ ,其中的 $p (w)$ 表示单词在整个语料库中的概率， $α$ 是一个标量，这保证了一个词的向量与语篇向量的内积很小很小的情况下，整个词也是可能被话语向量生成出来。论文也对这种平滑操作称为：SIF(smooth inverse frequency)

(2) 引入公共语篇向量 $c_0$
引入了一个公共的语篇向量 $c_0$ ，其表示所有句子都具有的公共语义。但句子间的差异需要有差异的那部分语义来体现的。所以在计算句子间的语义相似度的时候，需要先删除公共语义部分。

假定所有词向量大致满足均匀分布，且模长一致， $Z_{\tilde{c}_{s}}$ 可以近似看成是一个定值。
$\operatorname{Pr}\left[ w\text{ emitted in sentence } s\mid c_{s}\right] =\alpha p(w)+(1-\alpha )\frac{\exp\left(\left< \tilde{c}_{s} ,v_{w}\right> \right)}{Z}$

4.基于随机游走模型求解句子向量

根据上述的随机游走篇章模型可知一句话的概率为：
$p\left[s \mid c_{s}\right]=\prod_{w \in s} p\left(w \mid c_{s}\right)=\prod_{w \in s}\left[\alpha p(w)+(1-\alpha) \frac{\exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right)}{Z}\right]$

通过最大似然来求得语篇向量 $c_s$ 使得上述句子概率 $p (s)$ 概率最大。

先分析一下 $p(w|c_s)$ 。令 $f_{w}\left(\tilde{c}_{s}\right)=log(p(w|c_s))$ 。
$f_{w}\left(\tilde{c}_{s}\right)=\log \left[\alpha p(w)+(1-\alpha) \frac{\exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right)}{Z}\right]$

对 $f_{w}\left(\tilde{c}_{s}\right)$ 进行求导：
$\nabla f_{w}\left(\tilde{c}_{s}\right)=\frac{1}{\alpha p(w)+(1-\alpha) \exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right) / Z} \frac{1-\alpha}{Z} \exp \left(\left\langle v_{w}, \tilde{c}_{s}\right\rangle\right) v_{w} .$

然后通过泰勒展开式：
$\begin{aligned} f_{w}\left(\tilde{c}_{s}\right) & \approx f_{w}(0)+\nabla f_{w}(0)^{\top} \tilde{c}_{s} \\ &=\text { constant }+\frac{(1-\alpha) /(\alpha Z)}{p(w)+(1-\alpha) /(\alpha Z)}\left\langle v_{w}, \tilde{c}_{s}\right\rangle . \end{aligned}$

通过上述可知,假定 $\tilde{\boldsymbol{c}}_{s}$ 模长固定的情况下，与 $v_w$ 同方向的时候 $f_{w}\left(\tilde{c}_{s}\right)$ 结果最大。

假定 $\tilde{c}_{s}$ 服务单位球面上的均匀分布,因此当 $\tilde{\boldsymbol{c}}_{s}$ 与 $\sum_{w \in s} \frac{a}{p(w)+a} v_{w}$ 同方向时， $\sum_{w \in s} f_{w}\left(\tilde{c}_{s}\right)$ 结果最大。
$\arg \max \sum_{w \in s} f_{w}\left(\tilde{c}_{s}\right) \propto \sum_{u \in s} \frac{a}{p(w)+a} v_{w}, \text { where } a=\frac{1-\alpha}{\alpha Z} .$

所以一个句子的初始向量可以定义为：
$\tilde{c}_{s}\leftarrow \frac{1}{|s|}\sum _{w\in s}\frac{a}{a+p(w)} v_{w} \ \$

目前为止回答了第一问题：为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征。下面回答一下为什么得到句子的初始向量之后要做一个修正。

上面提到但句子间的差异需要有差异的那部分语义来体现的。所以在计算句子间的语义相似度的时候，需要先删除公共语义部分。

论文中使用的删除句子公共语义部分的方法是：
将前面求解都的句子集合S中所有的句子表征向量 $\tilde{\boldsymbol{c}}_{s}$ 以列向量拼接成一个矩阵 $X$ 。假定 $u$ 是矩阵的第一奇异向量。

最终的句子表征向量可以通过如下公式求得:
$c_{s}\leftarrow \tilde{\boldsymbol{c}}_{s}-uu^{\top } \tilde{\boldsymbol{c}}_{s}\$

5.实验结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YIpaAmr4-1623306848432)(./1620387002501.png)]

从论文中的实验来看,论文提出的句子表征算法(图中的GloVe+WR) ,比基于词向量通过tfidf加权或者平均方式来获得句向量的方式要好。(图中的tfidf-GloVe,avg-Glove)

参考资料

A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

丘文波

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文解读-SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

1.论文摘要该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法：使用维基百科等无标签的语料训练得到词向量，然后通过词向量加权平均获得句子表征向量。然后使用PCA/SVD再对句向量进行一次修正得到最终得句向量。2. 计算句子表征的算法先来看下论文中提出的句子表征的算法：上面的算法过程中有两个重点：• 为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征？（公式(1)） • 为什么得到句子的初始向量之后要做一个修正（公式(2)）论文围绕着这两个问题进行了解答。3. 随机
复制链接

扫一扫