目录
3.连续词袋模型continuous bag of words,CBOW
负采样通过考虑同时含有正类样本和负类样本的相互独⽴事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的噪声词的个数线性相关。
层序softmax使用了二叉树,并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。
1.为何不用one-hot
one-hot将每个词转换成对应的索引0~N-1;假设某个词的索引i,那么其one-hot向量表示为全长N的零向量,并将第i个设为1。
虽然 one-hot词向量构造起来很容易,但通常并不是⼀个好选择。 ⼀个主要的原因是,one-hot词向量⽆法准确表达不同词之间的相似度,如我们常使⽤的余弦相似度。对于向量X,Y,它们的余弦相似度是它们之间夹⻆的余弦值
由于任何两个不同词的one-hot向量的余弦相似度都为0,多个不同词之间的相似度难以通过one-hot向量准确地体现出来。
word2vec⼯具的提出正是为了解决上⾯这个问题 [1]。它将每个词表示成⼀个定⻓的向量,并使得这些向量能较好地表达不同词之间的相似和类⽐关系。word2vec⼯具包含了两个模型,即跳字模型 (skip-gram)[2] 和连续词袋模型(continuous bag of words,CBOW)[3]。接下来让我们分别介绍这两个模型以及它们的训练⽅法。
2.跳字模型skip-gram
跳字模型假设基于某个词来⽣成它在⽂本序列周围的词.举个例⼦,假设⽂本序列 是“the”“man”“loves”“his”“son”。
以“loves”作为中⼼词,设背景窗⼝⼤⼩为2。如图所示,跳字模型所关⼼的是,给定中⼼词“loves”,⽣成与它距离不超过2个词的背景词“the”“man”“his”“son”的 条件概率,即
由贝叶斯网络推断条件独立性,给定中⼼词的情况下,背景词的⽣成是相互独⽴的,那么上式可以改写成
在跳字模型中,每个词被表示成两个d维向量,⽤来计算条件概率。假设这个词在词典中索引为i,当它为中⼼词时向量表示为,⽽为背景词时向量表示为
。设中⼼词
在词典中索引为c ,背景词
在词典中索引为o ,给定中⼼词⽣成背景词的条件概率可以通过对向量内积做softmax运算⽽得到:
,其中词典索引集
(1)
假设给定一个长度为T的文本序列,设时间步t的词为。那么给定中心词的情况下,当背景词窗口大小为m时,跳字模型的似然函数,即 给定任一中心词生成所有背景词的条件概率:
(2)
2.1训练跳字模型
跳字模型的参数是每个词对应的中心词向量和背景词向量。训练中我们通过最大似然估计来学习模型参数,即等价于最小化对数损失函数:
(3)
(1)式求对数得:
(4)
通过微分,我们可以得到上式中的梯度:
(5)
它的计算需要词典中所有词以为中心词的条件概率。有关其它词向量的梯度同理可得。
训练结束后,对于字典中任一索引为i的词,我们均得到该词作为中心词和背景词的两组词向量。
在⾃然语⾔处理应⽤中,⼀般使⽤跳字模型的中⼼词向量作为词的表征向量
3.连续词袋模型continuous bag of words,CBOW
连续词袋模型与跳字模型类似。与跳字模型最⼤的不同在于,
连续词袋模型假设基于某中⼼词在⽂本序列前后的背景词来⽣成该中⼼词。
在同样的⽂本序列“the”“man”“loves”“his”“son”⾥,以“loves”作为中⼼词,且背景窗⼝⼤⼩为2时,连续词袋模型关⼼的是,给定背景词“the”“man”“his”“son”⽣成中⼼词“loves”的条件概率(如图所示),
也就是
因为连续词袋模型的背景词有多个,我们将这些背景词向量取平均,然后使⽤和跳字模型⼀样的⽅法来计算条件概率.
假设和
分别为词典中索引为i的词作为背景词和中⼼词的向量(注意符号与跳字模型中的相反)。设中⼼词
在词典中索引为c ,背景词
在词典中索引为
,那么给定背景词生成中心词的条件概率:
(6)
为了让符号更加简单,记,那么上式可写成
(7)
给定一个长度为T的文本序列,设时间步t的词为,背景词窗口大小为m。连续词袋模型的似然函数,即 由背景词生成任一中心词的条件概率:
3.1训练连续词袋模型
与跳字模型基本一致。其损失函数为:
(8)
注意到(7)式取对数得
(9)
通过微分,对上式任一背景词向量求梯度得
(10)
有关其他词向量的梯度同理可得。同跳字模型不⼀样的⼀点在于,我们⼀般使⽤连续词袋模型的背景词向量作为词的表征向量。
4.近似训练
跳字模型的核心在于使用softmax运算得到给定中心词来生成背景词
的条件概率:
即(1)式
该条件概率对应的相应的对数损失为
(11)
由于softmax运算考虑了背景词可能是词典中的任⼀词,以上损失包含了词典⼤⼩数⽬的项的累加。
不论是跳字模型还是连续词袋模型,由于条件概率使⽤了softmax运算,每⼀步的梯度计算都包含词典⼤⼩数⽬的项的累加。对于含⼏⼗万或上百万词的较⼤词典,每次的梯度计算开销可能过⼤。
为了降低该计算复杂度,介绍两种近似训练⽅法,即负采样(negative sampling)或层序softmax(hierarchical softmax)。由于跳字模型和连续词袋模型类似,这里仅以跳字模型为例介绍这两种⽅法。
4.1负采样
负采样修改了原来的⽬标函数。给定中心词的一个背景窗口,我们把背景词
出现在该背景窗口看作⼀个事件,并将该事件的概率计算为
,其中σ是sigmoid激活函数
我们先考虑最⼤化⽂本序列中所有该事件的联合概率来训练词向量。具体来说,给定⼀个⻓度为T的⽂本序列,设时间步t的词为 且背景窗⼝⼤⼩为 m,考虑最⼤化联合概率:
(12)
然而,以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为⽆穷⼤时,以上的联合概率才被最⼤化为1。很明显,这样的词向量毫⽆意义。
负采样通过采样并添加负类样本使目标函数更有意义。设背景词出现在中心词
的⼀个背景窗⼝为事件P,我们根据分布
采样
个未出现在该背景窗⼝中的词,即噪声词。设噪声词
不出现在中心词
的该背景窗口为事件
假设同时含有正类样本和负类样本的事件
相互独立,负采样将仅考虑正类样本的(最大化的)联合概率(12)改写为:
(13)
其中条件概率被近似表示为:
(14)
即 给定中心词生成背景词的条件概率表示为,正类事件发生且负类事件不发生的联合概率
设⽂本序列中时间步t的词在词典中的索引为
,噪声词
在词典中的索引为
。有关以上条件概率的对数损失为
(15)
巧妙利用了sigmoid激活函数的性质:σ(-x)=1-σ(x)
现在,训练中每一步的梯度计算开销不再与词典大小相关,而与K线性相关。当K取较小的常数时,负采样在每一步的梯度计算开销较小。
4.2 层序hierarchical softmax
层序softmax是另⼀种近似训练法。它使⽤了⼆叉树这⼀数据结构, 树的每个叶结点代表词典V中的每个词。
假设为从二叉树的根结点到词w的叶结点的路径(包括根结点和叶结点)上的结点数。设
为该路径上第j个结点,并设该结点的背景词向量为
。以图10.3为例,
。层序softmax将跳字模型中的条件概率近似表示为
是结点n的左子结点:如果判断x为真,
。例如,让我们计算图10.3中给定词
生成词
的条件概率:我们需要将
的词向量
和根结点到
路径上的非叶结点向量
⼀一⼀一求内积.
由于在二叉树中由根结点到叶结点的路径上需要向左、向右再向左地遍历(图10.3中加粗的路径),我们得到
由于σ(-x)+σ(x)=1,给定中心词生成词典V中任⼀词的条件概率之和为1这⼀条件也将满足:
此外,由于的数量级为
, 当词典V很大时,层序softmax在训练中每一步的梯度计算开销相较未使用近似训练时大幅降低。
负采样通过考虑同时含有正类样本和负类样本的相互独⽴事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的噪声词的个数线性相关。
层序softmax使用了二叉树,并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。