词作为自然语言处理中的一个基本单元,如何表示一个词对于后续的处理任务至关重要,最简单的表示方式是 One-hot,但是该方法表示的词之间是相互独立的,因此局限性很大,需要采用一种更合理的表示方法。
1. 前言
目前,学习词向量的方法主流的有两种:
-
全局矩阵分解的方法,比如LSA,HAL,这类方法首先统计语料库中的“词-文档”或者“词-词”共现矩阵,然后通过矩阵分解的方法来获得一个低维词向量。“词-文档”矩阵是指矩阵的行表示词,列表示文档,矩阵的元素是改词在文档中出现的次数。“词-词”共现矩阵的行和列都表示一个矩阵,
-
局部上下文窗口的方法, 比如skip-gram,通过神经网络的方法使语料库中给定上下文中共同出现的单词对的概率更大
但是这两种方法都有一个缺点全局矩阵分解的方法虽然利用了全局统计信息,但是他会过度重视共现词频高的单词对,然而这些词并没有多大的语义联系,局部上下文窗口的方法虽然在词类比方面的任务表现的很好,但是没有充分利用全局统计信息。
该篇文章的主要思想就是两者取其长,结合各自的优点进行词向量学习。
2.Glove
首先我们先定义一些符号
X X X : 表示“词-词”共现矩阵,是一个对阵矩阵
X i j X_{ij} Xij: 表示词 j 出现在中心词 i 的上下文(基于窗口)的次数。
X i X_i Xi: 表示任何词出现在词 i 上下文的总的次数。
P i j = X i j X i P_{ij}=\frac{X_{ij}}{X_i} Pij=XiXij: 表示单词 j 出现在 单词 i 的上下文的概率。
假设我们有一个检测词 k,则存在如下关系
r a t i o = P i k P j k ratio=\frac{P_{ik}}{P_{jk}} ratio=PjkPik | j,k 相关 | j,k不相 |
---|---|---|
i,k相关 | 1 | 非常大 |
i,k不相关 | 非常小 | 1 |
上面表格的意思就是当词 i,k相关时,如果j,k相关,则 r a t i o = P i k P j k ratio=\frac{P_{ik}}{P_{jk}} ratio=PjkPik接近于1,如果j,k不想管,此时 P j k P_{jk} Pjk非常小,则 r a t i o = P i k P j k ratio=\frac{P_{ik}}{P_{jk}} ratio=PjkPik的值会很大,如果i,k不相关,我们可以依次类推出上面的结果。
如果我们单纯地预测 P i j P_{ij} Pij,此时就变回skip-gram,我们如何利用全局统计信息呢,此时我们可以利用上面表格思想,我们预测概率的比率,即:
(1) F ( w i , w j , w ^ k ) = P i k P i j F(w_i, w_j, \hat w_k)=\frac{P_{ik}}{P_{ij}} \tag{1} F(wi,wj,w^k)=PijPik(1)
其中, w w w表示一个d维的词向量, w ^ \hat w w^ 表示上下文检测词。这里的F存在很多解,但是我们可以一步步地添加约束来得到最后的一个解
因为向量空间具有线性结构,因此我们只考虑函数 F F F 在目标词的差异上进行运算(这个原因个人觉得理由有点牵强)
(2) F ( w i − w j , w ^ k ) = P i k P i j F(w_i-w_j, \hat w_k)=\frac{P_{ik}}{P_{ij}} \tag{2} F(wi−wj,w^k)=PijPik(2)
这句话是个人的理解:个人感觉这一部还有个原因是为了减少计算量。
从上面公式我们可以看到公式左边是个向量,右边是一个标量,因此我们可以使用向量的点乘来解决这个问题。
(3) F ( ( w i − w j ) T w ^ k ) = P i k P i j F((w_i-w_j)^T\hat w_k)=\frac{P_{ik}}{P_{ij}} \tag{3} F((wi−wj)Tw^k)=PijPik(3)
即
(4) F ( w i T w ^ k − w j T w ^ k ) = P i k P i j F(w_i^T\hat w_k-w_j^T\hat w_k)=\frac{P_{ik}}{P_{ij}} \tag{4} F(wiTw^k−wjTw^k)=PijPik(4)
在这里我们需要寻找一个在 + 和 × 之间的同态函数,比如:
(5) F ( w i T w ^ k − w j T w ^ k ) = F ( w i T w ^ k ) F ( w j T w ^ k ) F(w_i^T\hat w_k-w_j^T\hat w_k)=\frac{F(w_i^T\hat w_k)}{F(w_j^T\hat w_k)} \tag{5} F(wiTw^k−wjTw^k)=F(wjTw^k)F(wiTw^k)(5)
该式在结合上面地公式(4):即
(6) F ( w i T w ^ k ) F ( w i T w ^ k ) = P i k P i j \frac{F(w_i^T\hat w_k)}{F(w_i^T\hat w_k)}=\frac{P_{ik}}{P_{ij}} \tag{6} F(wiTw^k)F(wiTw^k)=PijPik(6)
因此:
(7) F ( w i T w ^ k ) = P i k = X i k X i F(w_i^T\hat w_k)=P_{ik}=\frac{X_{ik}}{X_i} \tag{7} F(wiTw^k)=Pik=XiXik(7)
对于满足公式(5)的函数,我们可以想到有指数函数 exp,即:
(8) exp ( w i T w ^ k − w j T w ^ k ) = exp ( w i T w ^ k ) exp ( w j T w ^ k ) \exp(w_i^T\hat w_k-w_j^T\hat w_k)=\frac{\exp(w_i^T\hat w_k)}{\exp(w_j^T\hat w_k)} \tag{8} exp(wiTw^k−wjTw^k)=exp(wjTw^k)exp(wiTw^k)(8)
结合公式(7)和(8)我们可以得到
(9)
e
x
p
(
w
i
T
w
^
k
)
=
P
i
k
=
X
i
k
X
i
exp(w_i^T\hat w_k)=P_{ik}=\frac{X_{ik}}{X_i} \tag{9}
exp(wiTw^k)=Pik=XiXik(9)
我们对其取对数可以得到:
(10)
w
i
T
w
^
k
=
log
(
P
i
k
)
=
log
(
X
i
k
)
−
log
(
X
i
)
w_i^T\hat w_k=\log(P_{ik})=\log(X_{ik}) - \log(X_i) \tag{10}
wiTw^k=log(Pik)=log(Xik)−log(Xi)(10)
由于上面左边具有交换性,而右边不具有,同时 X i X_i Xi和k无关因此可以作为一个偏织项,因此公式(10)可以演变为
(11) w i T w ^ k + b i + b ^ k = l o g ( X i k ) w_i^T\hat w_k + b_i + \hat b_k=log(X_{ik}) \tag{11} wiTw^k+bi+b^k=log(Xik)(11)
其中 b ^ k \hat b_k b^k 作为 k 的偏置项来保持公式的对称性。
同事为了防止 X i k X_{ik} Xik接近0时,log 趋向于负无穷大,因此我们对右式加上一个平滑项,即 log ( X i k ) → l o g ( 1 + X i k ) \log(X_{ik}) \to log(1+X_{ik}) log(Xik)→log(1+Xik)
因此该模型的损失函数为:
(12) J = ∑ i , j V ( w i T w ^ k + b i + b ^ k − l o g ( X i k ) ) 2 J = \sum _{i,j}^{V} (w_i^T\hat w_k + b_i + \hat b_k-log(X_{ik}) )^2 \tag{12} J=i,j∑V(wiTw^k+bi+b^k−log(Xik))2(12)
在这里有个问题就是他对每个单词对平等对待,但是这是不合理的,应该对
X
i
j
X_{ij}
Xij值较大的,权重应该更大,同时,我们又不应该过度重视高频词,该论文选取的权重函数如下:
(13)
f
(
x
)
=
{
−
(
x
/
x
m
a
x
)
α
,
i
f
x
<
x
m
a
x
1
,
o
t
h
e
r
w
i
s
e
f(x)=\begin{cases} -(x/x_{max})^\alpha,\quad if x<x_{max} \\ 1, otherwise \end{cases} \tag{13}
f(x)={−(x/xmax)α,ifx<xmax1,otherwise(13)
最终该损失函数如下:
(14)
J
=
∑
i
,
j
V
f
(
X
i
j
)
(
w
i
T
w
^
k
+
b
i
+
b
^
k
−
l
o
g
(
X
i
k
)
)
2
J = \sum _{i,j}^{V} f(X_{ij})(w_i^T\hat w_k + b_i + \hat b_k-log(X_{ik}) )^2 \tag{14}
J=i,j∑Vf(Xij)(wiTw^k+bi+b^k−log(Xik))2(14)
论文中 α \alpha α 和 x m a x x_{max} xmax分别取值 3 / 4 3/4 3/4 和 100.
3. 和Skip-gram的联系
前面提过,Glove 结合了之前两种方法的优点,但是他是如何结合或者如何从Skip-gram演变而来的呢?
总所周知,Skip-gram模型可以通过如下一个公式来表达,即Softmax:
(15) Q i j = e x p ( w i T w ^ j ) ∑ k = 1 V e x p ( w i T w ^ k ) Q_{ij}=\frac{exp(w_i^T\hat w_j)}{\sum_{k=1}^V exp(w_i^T\hat w_k)} \tag{15} Qij=∑k=1Vexp(wiTw^k)exp(wiTw^j)(15)
则该模型的损失函数为:
(16)
J
=
−
∑
i
∈
c
o
r
p
u
s
,
j
∈
c
o
n
t
e
x
t
(
i
)
log
Q
i
j
J =-\sum_{i \in corpus, j \in context(i)} \log Q_{ij} \tag{16}
J=−i∈corpus,j∈context(i)∑logQij(16)
由于我们需要利用全局统计信息,因此一个单词对可能出现很多次,因此,我们首先把所有相同的单词对先进行计算,即
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ J &= -\sum_{i=…
由于交叉熵具有某些缺点,交叉熵具有长尾效应,当过分重视不太可能的事件时建模效果不是很好,而且交叉熵需要Q归一化,这样计算很大,因此使用这样一个未归一化的最小二成损失来替代
(18)
J
^
=
∑
i
,
j
X
i
(
X
i
j
−
exp
(
w
i
T
w
^
j
)
)
2
\hat J = \sum_{i,j} X_i (X_{ij} - \exp(w_i^T \hat w _j))^2 \tag{18}
J^=i,j∑Xi(Xij−exp(wiTw^j))2(18)
这里是因为18式中当 X i j X_{ij} Xij变得很大时,训练变得复杂,于是使用对数可以缓解或补交这个问题,即:
(19) J ^ = ∑ i , j X i ( w i T w ^ j − log X i j ) 2 \hat J = \sum_{i,j} X_i (w_i^T \hat w _j- \log X_{ij} )^2 \tag{19} J^=i,j∑Xi(wiTw^j−logXij)2(19)
这里 X i X_i Xi可以视为一个权重项,我们通过调整这个权重和添加权重项公式19就演变为公式14.