word2vec

最新推荐文章于 2020-12-12 17:47:21 发布

SunChao3555

最新推荐文章于 2020-12-12 17:47:21 发布

阅读量311

点赞数 1

分类专栏： DeepLearning 文章标签： word2vec

本文链接：https://blog.csdn.net/SunChao3555/article/details/103385851

版权

DeepLearning 专栏收录该内容

20 篇文章 5 订阅

订阅专栏

1.为何不用one-hot

2.跳字模型skip-gram

2.1训练跳字模型

3.连续词袋模型continuous bag of words，CBOW

3.1训练连续词袋模型

4.近似训练

4.1负采样

4.2 层序hierarchical softmax

负采样通过考虑同时含有正类样本和负类样本的相互独⽴事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的噪声词的个数线性相关。

层序softmax使用了二叉树，并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

1.为何不用one-hot

one-hot将每个词转换成对应的索引0~N-1;假设某个词的索引i，那么其one-hot向量表示为全长N的零向量，并将第i个设为1。

虽然 one-hot词向量构造起来很容易，但通常并不是⼀个好选择。⼀个主要的原因是，one-hot词向量⽆法准确表达不同词之间的相似度，如我们常使⽤的余弦相似度。对于向量X,Y，它们的余弦相似度是它们之间夹⻆的余弦值

$\frac{x^Ty}{||x|| \ ||y||} \in [-1,1]$

由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过one-hot向量准确地体现出来。

word2vec⼯具的提出正是为了解决上⾯这个问题 [1]。它将每个词表示成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。word2vec⼯具包含了两个模型，即跳字模型（skip-gram）[2] 和连续词袋模型（continuous bag of words，CBOW）[3]。接下来让我们分别介绍这两个模型以及它们的训练⽅法。

2.跳字模型skip-gram

跳字模型假设基于某个词来⽣成它在⽂本序列周围的词.举个例⼦，假设⽂本序列是“the”“man”“loves”“his”“son”。

以“loves”作为中⼼词，设背景窗⼝⼤⼩为2。如图所示，跳字模型所关⼼的是，给定中⼼词“loves”，⽣成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率，即

P(the,man,his,son|loves)

由贝叶斯网络推断条件独立性，给定中⼼词的情况下，背景词的⽣成是相互独⽴的，那么上式可以改写成

$P(the|loves)\cdot P(man|loves)\cdot P(his|loves)\cdot P(son|loves)$

在跳字模型中，每个词被表示成两个d维向量，⽤来计算条件概率。假设这个词在词典中索引为i，当它为中⼼词时向量表示为 $v_i\in R^d$ ，⽽为背景词时向量表示为 $u_i\in R^d$ 。设中⼼词 w_c 在词典中索引为c ，背景词 w_o 在词典中索引为o ，给定中⼼词⽣成背景词的条件概率可以通过对向量内积做softmax运算⽽得到:

$P(w_o|w_c)=\frac{exp(u_o^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}$ ,其中词典索引集 $V=\left\{ 0,1,...,|V|-1 \right\}$ (1)

假设给定一个长度为T的文本序列，设时间步t的词为 $w^{(t)}$ 。那么给定中心词的情况下，当背景词窗口大小为m时，跳字模型的似然函数，即给定任一中心词生成所有背景词的条件概率：

$\prod _{t=1}^T\prod_{-m\leq j\leq m,j\neq0}P(w^{(t+j)}|w^{(t)})$ (2)

2.1训练跳字模型

跳字模型的参数是每个词对应的中心词向量和背景词向量。训练中我们通过最大似然估计来学习模型参数，即等价于最小化对数损失函数：

$L=-\sum _{t=1}^T\sum_{-m\leq j\leq m,j\neq0}logP(w^{(t+j)}|w^{(t)})$ (3)

（1）式求对数得：

$logP(w_o|w_c)=u_o^Tv_c-log({\sum_{i\in V}exp(u_i^Tv_c)})$ (4)

通过微分，我们可以得到上式中 v_c 的梯度：

$\begin{align*}\frac{\partial logP(w_o|w_c)}{\partial v_c} &=u_o-\frac{\sum_{j\in V}exp(u_j^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}\cdot u_j \\ &=u_o-\sum_{j\in V}\frac{exp(u_j^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}\cdot u_j \\ &= u_o-\sum_{j\in V}P(w_j|w_c)\cdot u_j \end{align*}$ （5）

它的计算需要词典中所有词以 w_c 为中心词的条件概率。有关其它词向量的梯度同理可得。

训练结束后，对于字典中任一索引为i的词，我们均得到该词作为中心词和背景词的两组词向量 v_i,u_i 。

在⾃然语⾔处理应⽤中，⼀般使⽤跳字模型的中⼼词向量作为词的表征向量

3.连续词袋模型continuous bag of words，CBOW

连续词袋模型与跳字模型类似。与跳字模型最⼤的不同在于，

连续词袋模型假设基于某中⼼词在⽂本序列前后的背景词来⽣成该中⼼词。

在同样的⽂本序列“the”“man”“loves”“his”“son”⾥，以“loves”作为中⼼词，且背景窗⼝⼤⼩为2时，连续词袋模型关⼼的是，给定背景词“the”“man”“his”“son”⽣成中⼼词“loves”的条件概率（如图所示），

也就是

P(loves|the,man,his,son)

因为连续词袋模型的背景词有多个，我们将这些背景词向量取平均，然后使⽤和跳字模型⼀样的⽅法来计算条件概率.

假设 $v_i\in R^d$ 和 $u_i\in R^d$ 分别为词典中索引为i的词作为背景词和中⼼词的向量（注意符号与跳字模型中的相反）。设中⼼词 w_c 在词典中索引为c ，背景词 $w_{o_1},...,w_{o_{2m}}$ 在词典中索引为 $o_1,...,o_{2m}$ ,那么给定背景词生成中心词的条件概率：

$P(w_c|w_{o_1},...,w_{o_{2m}})=\frac{exp(\frac{1}{2m}u_c^T(v_{o_1}+...+v_{o_{2m}}))}{\sum_{i\in V}exp(\frac{1}{2m}u_i^T(v_{o_1}+...+v_{o_{2m}}))}$ (6)

为了让符号更加简单，记 $W_o=\left \{ w_{o_1},...,w_{o_{2m}} \right \},and \ \bar{v}_o=(v_{o_1}+...v_{o_{2m}})/(2m)$ ,那么上式可写成

$P(w_c|W_o)=\frac{exp(u_c^T \bar{v}_o)}{\sum_{i\in V}exp(u_i^T \bar{v}_o)}$ (7)

给定一个长度为T的文本序列，设时间步t的词为 $w^{(t)}$ ,背景词窗口大小为m。连续词袋模型的似然函数，即由背景词生成任一中心词的条件概率：

$\prod_{t=1}^TP(w^{(t)}|w^{(t-m)},...,w^{(t-1)},w^{(t+1)},...,w^{(t+m)})$

3.1训练连续词袋模型

与跳字模型基本一致。其损失函数为：

$L=-\sum_{t=1}^TlogP(w^{(t)}|w^{(t-m)},...,w^{(t-1)},w^{(t+1)},...,w^{(t+m)})$ (8)

注意到（7）式取对数得

$logP(w_o|w_c)=u_c^T\bar{v}_o-log({\sum_{i\in V}exp(u_i^T\bar{v}_o)})$ (9)

通过微分，对上式任一背景词向量 $v_{o_i}(i=1,...,2m)$ 求梯度得

$\frac{\partial logP(w_c|W_o)}{\partial v_{o_i}}=\frac{1}{2m}\left ( u_c-\sum_{j\in V}\frac{exp(u_j^T\bar{v}_o)}{\sum_{i\in V}exp(u_i^T\bar{v}_o)}\cdot u_j \right )=\frac{1}{2m}\left (u_c-\sum_{j\in V}P(w_j|W_o)\cdot u_j \right )$ (10)

有关其他词向量的梯度同理可得。同跳字模型不⼀样的⼀点在于，我们⼀般使⽤连续词袋模型的背景词向量作为词的表征向量。

4.近似训练

跳字模型的核心在于使用softmax运算得到给定中心词 w_c 来生成背景词 w_o 的条件概率：

即（1）式

$P(w_o|w_c)=\frac{exp(u_o^Tv_c)}{\sum_{i\in V}exp(u_i^Tv_c)}$

该条件概率对应的相应的对数损失为

$-logP(w_o|w_c)=-u_o^Tv_c+log({\sum_{i\in V}exp(u_i^Tv_c)})$ (11)

由于softmax运算考虑了背景词可能是词典中的任⼀词，以上损失包含了词典⼤⼩数⽬的项的累加。

不论是跳字模型还是连续词袋模型，由于条件概率使⽤了softmax运算，每⼀步的梯度计算都包含词典⼤⼩数⽬的项的累加。对于含⼏⼗万或上百万词的较⼤词典，每次的梯度计算开销可能过⼤。

为了降低该计算复杂度，介绍两种近似训练⽅法，即负采样（negative sampling）或层序softmax（hierarchical softmax）。由于跳字模型和连续词袋模型类似，这里仅以跳字模型为例介绍这两种⽅法。

4.1负采样

负采样修改了原来的⽬标函数。给定中心词 w_c 的一个背景窗口，我们把背景词 w_o 出现在该背景窗口看作⼀个事件，并将该事件的概率计算为

$P(D=1|w_c,w_o)=\sigma (u_o^Tv_c)$ ,其中σ是sigmoid激活函数

我们先考虑最⼤化⽂本序列中所有该事件的联合概率来训练词向量。具体来说，给定⼀个⻓度为T的⽂本序列，设时间步t的词为 $w^{(t)}$ 且背景窗⼝⼤⼩为 m，考虑最⼤化联合概率：

(12)

然而，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为⽆穷⼤时，以上的联合概率才被最⼤化为1。很明显，这样的词向量毫⽆意义。

负采样通过采样并添加负类样本使目标函数更有意义。设背景词 w_o 出现在中心词 w_c 的⼀个背景窗⼝为事件P，我们根据分布 P(w) 采样个未出现在该背景窗⼝中的词，即噪声词。设噪声词 w_k(k=1,...,K) 不出现在中心词 w_c 的该背景窗口为事件 $\mathbf{N_k}$ 假设同时含有正类样本和负类样本的事件 P,N_1,...,N_K 相互独立，负采样将仅考虑正类样本的(最大化的)联合概率(12)改写为：

（13）

其中条件概率被近似表示为：

$P(w^{(t+j)}|w^{(t)})=P(D=1|w^{(t)},w^{(t+j)})\prod_{k=1,w_k\sim P(w)}^KP(D=0|w^{(t)},w_k)$ （14）

即 给定中心词生成背景词的条件概率表示为，正类事件发生且负类事件不发生的联合概率

设⽂本序列中时间步t的词 $w^{(t)}$ 在词典中的索引为 i_t ，噪声词 w_k 在词典中的索引为 h_k 。有关以上条件概率的对数损失为

（15）

巧妙利用了sigmoid激活函数的性质：σ(-x)=1-σ(x)

现在，训练中每一步的梯度计算开销不再与词典大小相关，而与K线性相关。当K取较小的常数时，负采样在每一步的梯度计算开销较小。

4.2 层序hierarchical softmax

层序softmax是另⼀种近似训练法。它使⽤了⼆叉树这⼀数据结构，树的每个叶结点代表词典V中的每个词。

假设 L(w) 为从二叉树的根结点到词w的叶结点的路径（包括根结点和叶结点）上的结点数。设 n(w,j) 为该路径上第j个结点，并设该结点的背景词向量为 $\mathbf{u}_{n(w,j)}$ 。以图10.3为例, L(w_3)=4 。层序softmax将跳字模型中的条件概率近似表示为

LeftChild(n) 是结点n的左子结点：如果判断x为真，。例如，让我们计算图10.3中给定词 w_c 生成词 w_3 的条件概率：我们需要将 w_c 的词向量 v_c 和根结点到 w_3 路径上的非叶结点向量 $\mathbf{u}_{n(w,j)}$ ⼀一⼀一求内积.

由于在二叉树中由根结点到叶结点 w_3 的路径上需要向左、向右再向左地遍历（图10.3中加粗的路径），我们得到

由于σ(-x)+σ(x)=1，给定中心词 w_c 生成词典V中任⼀词的条件概率之和为1这⼀条件也将满足：

此外，由于 ${\color{Red} L(w_o)-1}$ 的数量级为 ${\color{Red} O(log_2 |V|)}$ , 当词典V很大时，层序softmax在训练中每一步的梯度计算开销相较未使用近似训练时大幅降低。

负采样通过考虑同时含有正类样本和负类样本的相互独⽴事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的噪声词的个数线性相关。

层序softmax使用了二叉树，并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

SunChao3555

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec

目录1.为何不用one-hot2.跳字模型skip-gram2.1训练跳字模型3.连续词袋模型continuous bag of words，CBOW3.1训练连续词袋模型4.近似训练4.1负采样4.2 层序hierarchical softmax负采样通过考虑同时含有正类样本和负类样本的相互独⽴事件来构造损失函数。其训练中每⼀步的梯度计算开销与采样的...
复制链接

扫一扫

专栏目录