NLP基础（六）：GLOVE和FastText_word2vec 是局部-CSDN博客

本文链接：https://blog.csdn.net/lygeneral/article/details/107239469

1.GLOVE

Word2vec只关注局部，没有考虑全文语言特征。因此引出使用全局统计信息的GLOVE（Global Vectors for Word Representation），融入全局的先验统计信息，可以加快模型的训练速度，又可以控制词的相对权重。

现分别计算在ice和steam出现的情况下solid、gas、water、fashion出现的概率，如下表所示

Probability and Ratio	k=solid	k=gas	k=water	k=fashion
p(k\|ice)	$1.9 \times10^{-4}$	$6.6 \times10^{-5}$	$3.0 \times10^{-3}$	$1.7 \times10^{-5}$
p(k\|steam)	$2.2 \times10^{-5}$	$7.8 \times10^{-4}$	$2.2 \times10^{-3}$	$1.8 \times10^{-5}$
p(k\|ice)/p(k\|steam)	$8.9$	$8.5 \times10^{-2}$	$1.36$	$0.96$

p(k\|i)/p(k\|j)的值	单词j,k相关	单词j,k不相关
单词i,k相关	接近1	很大
单词i,k不相关	很小	接近1

假设 $X$ 为共现词频矩阵 $N\times N$ ， $N$ 为词的个数。 $x_{ij}$ 表示词 $i, j$ 在文本中的共现词频。单词k出现在单词i语境中的概率，即条件概率 $P_{ij}= \frac {x_{ij}}{x_i}$ 。因此得到两个调条件概率的比率 $ratio_{i,j,k}=\frac {P_{ik}}{P_{jk}}$ 。构造以下函数：
$F(w_i,w_j,\widetilde w_k)=\frac {P_{ik}}{P_{jk}}$

为了更好的表示两个比例的差值关系，可得：
$F(w_i-w_j,\widetilde w_k)=\frac {P_{ik}}{P_{jk}}$

由于右侧是标量，左侧是两个向量，于是可以将左侧的两个向量转换为内积形式：
$F((w_i-w_j)^T\widetilde w_k)=\frac {P_{ik}}{P_{jk}}$

为了让减法转换成乘法，假设F为指数函数，因此得：
$F((w_i-w_j)^T\widetilde w_k)=\frac {F(w_i^T\widetilde w_k)}{F(w_j^T\widetilde w_k)}=\frac {P_{ik}}{P_{jk}}$

然后有：
$F(w_i^T\widetilde w_k)=P_{ik}=\frac {X_{ik}}{X_i}$

令F=xep，于是有：
$w_i^T\widetilde w_k=log(X_{ik})-log(X_i)$

由于 $log(X_i)$ 和 $k$ 是独立的，于是增加bias term $b_i$ 和 $b_k$ ：
$w_i^T\widetilde w_k+b_i+b_k=log(X_{ik})$

基于代价函数 $J=\sum_{I,j=1}^V f(X_{ij})(w_i^T\widetilde w_k+b_i+b_k-log(X_{ik}))^2$ 求解词向量 $w_i^T和\widetilde w_k$ ，与word2vec只是用中心词作为词向量不同的是，最后Glove的词向量生成使用一个词的中心词和背景词的词向量之和作为该词的词向量。其中词频重要性：