GloVe原理与公式讲解

最新推荐文章于 2025-02-04 05:00:00 发布

野指针小李

最新推荐文章于 2025-02-04 05:00:00 发布

阅读量2.1k

点赞数 6

分类专栏： nlp 深度学习文章标签：词嵌入 GloVe 原理与公式自然语言处理

本文链接：https://blog.csdn.net/qq_35357274/article/details/118523151

版权

nlp 同时被 2 个专栏收录

19 篇文章

订阅专栏

深度学习

16 篇文章

订阅专栏

GloVe是2014年提出的一种词嵌入方法，结合了矩阵分解以及上下文窗口两种词嵌入方法。相较于Word2Vec而言，其论文写得很清晰。本文主要是整理了该论文中的内容。

对了宝贝儿们，卑微小李的公众号【野指针小李】已开通，期待与你一起探讨学术哟~摸摸大！

1 背景知识

GloVe是结合了基于矩阵分解的词嵌入技术以及基于局部窗口的词嵌入技术。

1.1 基于矩阵分解的词嵌入技术

基于矩阵分解的词嵌入技术的代表为LSA，在LSA中需要分解的矩阵是term-document矩阵，即每一行代表了词语，每一列代表了文档， $x_{ij}$ 指的就是第 $i$ 个词语在第 $j$ 个文档中的重要性程度。

举个简单的SVD获得词向量的例子[2]：

假设语料库为：

I like deep learning.
I like NLP.
I enjoy flying.

代码为：

import numpy as np

words = ['I', 'like', 'enjoy', 'deep', 'learning', 'NLP', 'flying', '.']
X = np.array([[0, 2, 1, 0, 0, 0, 0, 0],
              [2, 0, 0, 1, 0, 1, 0, 0],
              [1, 0, 0, 0, 0, 0, 1, 0],
              [0, 1, 0, 0, 1, 0, 0, 0],
              [0, 0, 0, 1, 0, 0, 0, 1],
              [0, 1, 0, 0, 0, 0, 0, 1],
              [0, 0, 1, 0, 0, 0, 0, 1],
              [0, 0, 0, 0, 1, 1, 1, 0]])

U, s, Vh = np.linalg.svd(X, full_matrices=False)

import matplotlib.pyplot as plt

for i in range(len(words)):
    plt.scatter(U[i, 0], U[i, 1])
    plt.text(U[i, 0], U[i, 1], words[i])

plt.show()

获得的结果为：

SVD
从图中可以得出结论，I与like词频最高；对于like而言，enjoy与I是距离最近的点。

SVD的更多知识可以看[3]，这里不再多赘述。

1.2 基于局部窗口的词嵌入技术

基于局部窗口的词嵌入技术的代表就是Word2Vec，其中有两个模型——Skip-gram和CBOW。

Skip-gram是通过中心词预测窗口中的上下文，CBOW是根据窗口中的上下文预测中心词。

详细的内容可以见：《Word2Vec原理与公式详细推导》[4]，《Word2Vec之Hierarchical Softmax与Negative Sampling》[5]，《TensorFlow学习笔记（3）——TensorFlow实现Word2Vec》[6]

2 GloVe

作者针对上面两类词嵌入方法，argue到[1]：

基于矩阵分解的方法可以有效利用统计信息，但是在词语类比（word analogies）任务上表现的相对较差。
基于局部滑动窗口的方法在词语类比任务上表现较好，但是没有能够利用全局信息。

针对上面的问题，作者们提出的GloVe就既使用了语料库的全局统计特性，也使用了局部上下文特征。于是引入了共现概率矩阵(Co-occurrence Probabilities Matrix)。

2.1 共现概率矩阵

以下是论文中的例子：
共现概率矩阵
设 $X_{ij}$ 为词语 $j$ 出现在词语 $i$ 的上下文中的次数； $X_i=\sum_kX_{ik}$ ，是词语 $i$ 上下文中出现的词语总次数； $P_{ij}=P(j|i)=\frac{X_{ij}}{X_i}$ 为词语 $j$ 出现在词语 $i$ 的上下文中的概率。

根据我们的常识会发现ice和solid比起stram和solid更经常出现；ice和gas比起steam和gas更不容易出现；ice和water以及steam和water出现的次数差不多；而ice和fashion以及steam和fashion基本不会共同出现。

于是可以绘制出如下的矩阵[7]：

2.1.1 共现概率矩阵构建

共现矩阵的构建就体现了作者提到的滑动窗口的思想，计算的是一个窗口中词语与中心词共现的次数。在原论文中，这个次数并非是出现就 $X_{ij}+1$ ，而是采用了一个递减的函数，假设词语 $j$ 与中心词 $i$ 之间的距离为 $d$ ，那么 $X_{ij}+\frac{1}{d}$ 。就是说词语 $j$ 与词语 $i$ 的距离 $d = 1$ （ $i$ 与 $j$ 是相邻的词语），则 $X_{ij}+1$ ；如果 $d = 5$ ，则 $X_{ij}+\frac{1}{5}$ 。

In all cases we use a decreasing weighting function, so that word pairs that are $d$ words apart contribute $1 / d$ to the total count.

作者这样做的是认为距离中心词 $i$ 较远的词语，对 $i$ 提供的信息就较少。

This is one way to account for the fact that very distant word pairs are expected to contain less relevant information about the words’ relationship to one another.

2.2 目标函数构建

作者为了捕获到词语之间共现概率的关系，于是假定了式(1)这个函数：
$F(w_i, w_j, \tilde{w}_k)=\frac{P_{ik}}{P_{jk}} \tag{1}$

其中 $\in \mathbb{R}^d$ 是词向量； $\tilde{w} \in \mathbb{R}^d$ 是目标词上下文词语的词向量。这里的问题在于，根据语料库就可以确定 $\frac{P_{ik}}{P_{jk}}$ ，但是 $F$ 这个函数就有无数种可能性，所以需要确定 $F$ 这个函数。

根据上面2.1最下面的混淆矩阵，我们可以很轻易的得出 $\frac{P_{ik}}{P_{jk}}$ 是一种词语间相似度的表达，又由于词向量都是线性的，所以最简单的一种词向量之间相似度的表达方式就是两个向量做差。于是式(1)就可以变为：
$F(w_i - w_j, \tilde{w}_k) = \frac{P_{ik}}{P_{jk}} \tag{2}$

根据式(2)，我们继续推导发现 $\frac{P_{ik}}{P_{jk}}$ 是个标量，而 $w_i - w_j$ 与 $\tilde{w}_k$ 是向量，为了让向量也变为标量，所以这里取内积。这里取内积的目的有二：不仅能够将向量变为标量，而且内积也是一种很简单的刻画向量相似度的方法。
$F\left((w_i-w_j)^T\tilde{w}_k\right)=\frac{P_{ik}}{P_{jk}} \tag{3}$

又因为 $X$ 是个对称矩阵，所以在做 $\leftrightarrow \tilde{w}$ 以及 $\leftrightarrow X^T$ 转换时，等式(3)不应该发生变化，但是现在的公式是不满足的。其原因在于，对于左侧的式子而言，由于是向量的内积，那么能够满足 $w^T\tilde{w}=\tilde{w}^Tw$ ；但是对于右侧而言，如下所示：
$\frac{P_{ik}}{P_{jk}}=\frac{X_j X_{ik}}{X_{i}X_{jk}} \neq \frac{P_{ki}}{P_{kj}}=\frac{ X_{ki}}{X_{kj}}$

为了满足这个条件，我们要求函数 $F$ 要满足同态特性（homomorphism）[8]：
$F\left((w_i-w_j)^T\tilde{w}_k\right)=\frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)} \tag{4}$

接着我们发现左侧是差（可转换为 $w_i^T\tilde{w}_k - w_j^T\tilde{w}_k$ ），右侧是商，所以通过指数函数将左右关联起来，即 $F$ 是 ${\rm exp}$ ：
${\rm exp}\left((w_i-w_j)^T\tilde{w}_k\right)=\frac{{\rm exp}(w_i^T\tilde{w}_k)}{{\rm exp}(w_j^T\tilde{w}_k)} \tag{5}$

到此，等式左侧与右侧就相等起来了。接着我们开始构建目标函数。

因为
$F(w_i^T\tilde{x}_k)=P_{ik}=\frac{X_{ik}}{X_i}$

所以可以将 ${\rm exp}(w_i^T\tilde{w_k})$ 转换为：
$w_i^T\tilde{w}_k={\rm log}(P_{ik})={\rm log}(X_{ik})-{\rm log}(X_i) \tag{6}$

由于 $w_i^T\tilde{w}_k$ 是对称的， $X_{ik}$ 也是对称的，但是 $X_i$ 不是对称的（因为独立于 $k$ ），所以将公式(6)变为：
$w_i^T\tilde{w}_k + b_i = {\rm log}(X_{ik}) \tag{7}$

这里 $b_i$ 替代 $w_i$ 。同时，为了保证 $\tilde{w}_k$ 的对称性，添加一个关于 $\tilde{w}_k$ 的偏置项 $\tilde{b}_k$ ，于是得到GloVe的公式：
$w_i^T\tilde{w}_k + b_i + \tilde{b}_k = {\rm log}(X_{ik}) \tag{8}$

但是由于 $X_{ik}=0$ 时， ${\rm log}(X_{ik}) \rightarrow -\infty$ 是发散的，为了保证不改变 $X$ 的稀疏性以及避免发散，所以将式(8)变为：
$w_i^T\tilde{w}_k + b_i + \tilde{b}_k = {\rm log}(1 + X_{ik}) \tag{9}$

由此可以得到目标函数：
$\frac{1}{2}\sum_{i, j=1}^V f(X_{ij})(w_i^T\tilde{w}_j + b_i + \tilde{b}_j -{\rm log}(1 + X_{ij}) )^2 \tag{10}$

这里 $V$ 是语料库中词语数量的大小。这个目标函数实质上就是一种带权的均方误差。权重就是函数 $f(X_{ij})$ 。这个函数需要满足以下3点：

$f (0) = 0$ ；
$f (x)$ 应该是个非递减函数；
$f (x)$ 在 $x$ 很大的时候变化的应该相对较小。

这样做的目的在于，既能够保证共现频率低的词语的权重较小，也不至于使得共现频率高的词语的权重过大（比如"the"，"and"这些非停用词）。由此构建出权重函数：
$\begin{aligned} f(x)=\left\{ \begin{aligned} &(\frac{x}{x_{\rm max}})^\alpha && {\rm if}\ x < x_{\rm max} \\ &1 && {\rm otherwise} \end{aligned} \right. \tag{11} \end{aligned}$

其图像如下图所示：
权重函数
论文中提到 $x_{\rm max}$ 对实验结果影响不大，所以取 $x_{\rm max}=100$ 。同时根据实验结果得出 $\alpha = \frac{3}{4}$ 。

我们从这个公式中就可以得出，我们优化的目标是希望最小化语料库中每一对词的内积距离和两个词计数的对数。

根据公式(10)，我们可以计算出两个向量， $W$ 与 $\tilde{W}$ ，由于 $X$ 是对称的，所以 $W$ 与 $\tilde{W}$ 的区别仅在于初始化不同。根据经验表明， $W+\tilde{W}$ 即可获得最终的词向量。

The model generates two sets of word vectors, $W$ and $\tilde{W}$ . When $X$ is symmetric, $W$ and $\tilde{W}$ are equivalent and differ only as a result of their random initializations; the two sets of vectors should perform equivalently. On the other hand, there is evidence that for certain types of neural networks, training multiple instances of the network and then combining the results can help reduce overfitting and noise and generally improve results (Ciresan
et al., 2012). With this in mind, we choose to use the sum $+\tilde{W}$ as our word vectors.

这里也就体现出了GloVe的全局性。Word2Vec模型试图一次捕获同时出现的一个窗口，GloVe试图捕获这些单词词频的总体统计数据。

3 参考

[1] Jeffrey Pennington, Richard Socher, Christopher D. Manning. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing. 2014.
[2] AI研习社-译站. 【官方】【中英】CS224n 斯坦福深度自然语言处理课 @雷锋字幕组[EB/OL]. (2019-01-22)[2021-07-06]. https://www.bilibili.com/video/BV1pt411h7aT?p=3
[3] 漫漫成长. 奇异值分解（SVD）[EB/OL]. (2017-10-12)[2021-07-06]. https://zhuanlan.zhihu.com/p/29846048
[4] 野指针小李. Word2Vec原理与公式详细推导[EB/OL]. (2021-04-28)[2021-07-06]. https://blog.csdn.net/qq_35357274/article/details/116240180
[5] 野指针小李. Word2Vec之Hierarchical Softmax与Negative Sampling[EB/OL]. (2021-05-03)[2021-07-06]. https://blog.csdn.net/qq_35357274/article/details/116381205
[6] 野指针小李. TensorFlow学习笔记（3）——TensorFlow实现Word2Vec[EB/OL]. (2021-06-18)[2021-07-06]. https://blog.csdn.net/qq_35357274/article/details/117967345
[7] 梦里寻梦. （十五）通俗易懂理解——Glove算法原理[EB/OL]. (2018-08-15)[2021-07-06]. https://zhuanlan.zhihu.com/p/42073620
[8] 范永勇. GloVe详解[EB/OL]. (2018-02-19)[2021-07-06]. http://www.fanyeong.com/2018/02/19/glove-in-detail/