word2vec

最新推荐文章于 2023-05-07 13:32:58 发布

extremebingo

最新推荐文章于 2023-05-07 13:32:58 发布

阅读量699

点赞数 1

分类专栏： NLP 文章标签：神经网络算法 nlp

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在NLP任务中，需要将自然语言交给计算机来处理，但是计算机无法直接理解人类的语言，所以首先要将语言数字化。词向量提供了一种很好的将语言数字化的方法。

一种最简单的词向量表示方法是onehot representation，即onehot编码。但是这种词向量的表示有一定的缺点，如维数灾难，无法表示词之间的相似性。

另一种词向量是Distributed Representation，其基本思想是：通过训练将某种语言中的每一个词映射成一个固定长度的短向量。所有这些向量构成词向量空间，而每一向量则可视为该空间中的一个点，可以根据两个向量的距离来判断它们之间的相似性。word2vec就是一种Distributed Representation。

word2vec模型是由Mikolov于2013年提出的。由word2vec模型学习的单词向量已经被证明具有语义的意义，并且在各种NLP任务中都很有用。当提到word2vec算法或模型的时候，指的是其背后用于计算word vector的CBoW模型和Skip-gram模型，它们只是浅层神经网络，并不是深度学习算法。

本文主要介绍原始的continuous bag-of-word(CBOW)和skip-gram(SG)模型，同时介绍了对以上两种模型训练的优化算法，包括hierarchical softmax和negative sampling。

Continuous Bag-of-Word Model(CBoW)

One-word context

首先考虑最简单的情况，上下文只有一个词，即给定上下文中的一个词，来预测目标词汇。图1展示了只考虑上下文只含有一个词的神经网络模型。

只考虑含义一个词的上下文

假设词汇量大小为 $V$ ，则输入层和输出层的神经元个数都为 $V$ 。隐层的神经元个数为 $N$ ，即用长度为 $N$ 的向量来表示一个词。相邻层之间的神经元是全连接的，输入采用one-hot编码方式。

输入层与隐含层之间的权重矩阵为 $W_{V\times N}=\{w_{ki}\}$ ，用 $v_w$ 表示输入的那个词与隐含层连接的权重，因此 $v_w$ 为 $W$ 矩阵的其中一个行向量。若输入一个词，假设 $x_k=1$ ，对于任意的 $k^{'}\ne k$ ， $x_{k\prime} = 0$ ，可得

h (N \times 1) = (W (V \times N) T) (N \times V) x (V \times 1) = (W T (k, \cdot)) (\cdot, k) : = ((v w I) T (1, N)) (N, 1) (1)

$h_{(N \times 1)}=({W_{(V \times N) }}^T)_{(N \times V)} x_{(V \times 1)} = (W_{(k,\cdot)}^T)_{(\cdot , k)} := ((v_{w_I})_{(1,N)}^T)_{(N,1)} \tag{1}$

本质上就是将 $W$ 的第 $k$ 行作为 $h$ 。 $v_{wI}$ 就是输入词 $w_I$ 的向量表示。注：这里采用的激活函数为线性激活函数，所以直接将输入层的权重之和传入到下一层。

隐含层与输出层之间的权重矩阵为 $W_{N\times V}^\prime=\{w_{ij}^\prime\}$ ，对于词典里的每一个词，定义一个score $u_j$ ，即输出层的输入值

u (V \times 1) = (W' (N \times V) T) (V \times N) h (N \times 1) u j = (W' (N \times 1) T) (1 \times N) h (N \times 1) = v' w j T h (2)

$u_{(V \times 1)} = ({W^{'}_{(N \times V)}}^T)_{(V \times N)} h_{(N \times 1)}\\ u_j = ({W^{'}_{(N \times 1)}}^T)_{(1 \times N)} h_{(N \times 1)} ={v_{w_j}^{\prime}}^Th \tag{2}$

其中， $v_{w_j}^{\prime}$ 是 $W^{\prime}$ 的第 $j$ 列。

通过softmax来得到输入词的后验分布，即

p (w j | w I) = y j = e u j \sum V j ' = 1 e u ' j (3)

$p(w_j | w_I) = y_j = \frac{e^{u_j}}{\sum_{j^\prime = 1}^{V} e^{u_j^\prime}} \tag{3}$

其中 $y_j$ 为输出层第 $j$ 个神经元的输出。

将式(1)和式(2)代入(3)式可得

p (w j | w I) = e v ' w j T v w I \sum V j ' = 1 e v ' w j ' T v w I (4)

$p(w_j | w_I) = \frac{e^{{v_{w_j}^{\prime}}^T v_{w_I}}}{\sum_{j^\prime = 1}^{V} e^{{v_{w_{j^\prime}}^{\prime}}^T v_{w_I}}} \tag{4}$

$v_w$ 和 $v_w^{\prime}$ 是词 $w$ 的两种表示。 $v_w$ 来自输入层和隐含层之间的权重矩阵 $W$ ， $v_w^{\prime}$ 来自隐含层和输出层之间的权重矩阵 $W^{\prime}$ 。

$v_w$ ：输入向量。

$v_w^{\prime}$ ：输出向量。

一般可以选取任意一个作为词向量。

简单分析一下模型的计算量，由于输入层是onehot编码的，所以输入层与隐含层之间的计算量并不大。整个模型的大部分计算量都集中在隐藏层和输出层之间的计算，以及输出层的softmax运算。因此，后续将有对这一部分优化的描述。

更新隐含层和输出层之间的权重 $W^{\prime}$

对于一个样本，训练的目标是使得(4)式最大，即最大化期望输出的条件概率( $j^*$ 为输出层期望输出的词的index值)

max p (w O | w I) = max y j * \propto max log y j * = max ⎛ ⎝ u j * - log \sum j' = 1 V e u j' ⎞ ⎠ (5) (6)

$\begin{align} \max p(w_O | w_I) & = \max y_{j^*} \\ & \propto \max \log y_{j^*} \tag{5} \\ & = \max \left(u_{j^*} - \log \sum_{j^{\prime}=1}^{V}e^{u_{j^{\prime}}} \right) \tag{6} \end{align}$

其中(6)式由(5)式代入(3)得到。

令损失函数为

E = - log p (w O | w I) = log \sum j' = 1 V e u j' - u j * (7) (8)

$\begin{align} E & = -\log p(w_O | w_I) \tag{7} \\ & = \log \sum_{j^{\prime}=1}^{V}e^{u_{j^{\prime}}} - u_{j^*} \tag{8} \end{align}$

因此，问题转化为了最小化损失函数 $E$ 。

对(8)式中的 $E$ 求关于第 $j$ 个节点的输入 $u_j$ 的偏导数得

\partial E \partial u j = y j - t j : = e j (9)

$\frac{\partial E}{\partial u_j} = y_j - t_j := e_j \tag{9}$

其中，当 $j = j^*$ 时， $t_j = 1$ ，否则 $t_j = 0$ 。

对 $w_{ij}^{\prime}$ 求导，得到隐藏层和输出层之间权重的梯度

\partial E \partial w ' i j = \partial E \partial u j \cdot \partial u j \partial w ' i j = e j \cdot h i (10)

$\frac{\partial E}{\partial w_{ij}^{\prime}} = \frac{\partial E}{\partial u_j} \cdot \frac{\partial u_j}{\partial w_{ij}^{\prime}} = e_j \cdot h_i \tag{10}$

其中 $h_i$ 为隐藏层第 $i$ 个神经元的输出。

所以，通过采用随机梯度下降法，可以得到以下的参数更新方式

w' i j (n e w) = w' i j (o l d) - η e j h i (11)

${w_{ij}^{'}}^{(new)} = {w_{ij}^{'}}^{(old)} - \eta e_j h_i \tag{11}$

或

v' w j (n e w) = v' w j (o l d) - η e j h, j = 1, 2, \dots, V (12)

${v_{w_j}^{'}}^{(new)} = {v_{w_j}^{'}}^{(old)} - \eta e_j h, \ j = 1,2, \cdots, V \tag{12}$

其中 $\eta>0$ 为学习率。

注：按照上面的权重更新方式，必须计算词典中每一个词的概率 $y_j$ ，然后比较 $y_j$ 和 $t_j$ 的大小关系。

更新输入层和隐含层之间的权重 $W$

求 $E$ 关于 $h_i$ 的偏导数

\partial E \partial h i = \sum j = 1 V \partial E \partial u j \cdot \partial u j \partial h i = \sum j = 1 V e j \cdot w' i j : = E H i (13)

$\frac{\partial E}{\partial h_i} = \sum_{j=1}^{V} \frac{\partial E}{\partial u_j} \cdot \frac{\partial u_j}{\partial h_i} = \sum_{j=1}^{V} e_j \cdot w_{ij}^{'} := EH_i \tag{13}$

由(1)式可得

h i = \sum k = 1 V x k \cdot w k i \partial E \partial w k i = \partial E \partial h i \cdot \partial h i \partial w k i = E H i \cdot x k (14) (15)

$\begin{align} h_i = \sum_{k=1}^{V} x_k \cdot w_{ki} \tag{14} \\ \frac{\partial E}{\partial w_{ki}} = \frac{\partial E}{\partial h_i} \cdot \frac{\partial h_i}{\partial w_{ki}} = EH_i \cdot x_k \tag{15} \end{align}$

等价于张量积

\partial E \partial W = x \otimes E H = x E H T (16)

$\frac{\partial E}{\partial W} = x \otimes EH = xEH^T \tag{16}$

$\frac{\partial E}{\partial W}$ 中只有一行是非零的，其它的行都为零。

参数更新的方式为

v (n e w) w I = v (o l d) w I - η E H T (17)

$v_{w_I}^{(new)} = v_{w_I}^{(old)} - \eta EH^T \tag{17}$

$v_{w_I}$ 是唯一的偏导数不为0的行，其它行的偏导数都为0，参数值保持不变，不进行更新操作。

Multi-word context(CBoW)

如下图所示的CBoW模型，上下文存在多个词。注：输入层与隐含层之间的 $C$ 个权值 $W_{V \times N}$ 相等，即权值共享。因为是权值共享的，所以可以将CBoW看成和图1类似的情况，只是输入向量不再是onehot，而是存在多个元素为1。因此，上下文的 $C$ 个词，先后顺序对结果没有影响，即不考虑这 $C$ 个词的先后顺序。

CBoW

example

如上图所示，给定上下文”the”, “cat”, “sat”，来预测第四个词”on”。输入的词各自映射为矩阵 $W$ 的一行。

当只考虑上下文只有一个词的情况时，是直接采用的输入向量。CBoW是将输入的上下文的向量取平均值来作为隐含层的输出，即

h = 1 C W T (x 1 + x 2 + \dots + x C) = 1 C (v w 1 + v w 2 + \dots + v w C) T (18)

$\begin{align} h & = \frac{1}{C} W^T (x_1 + x_2 + \cdots + x_C) \\ & = \frac{1}{C} (v_{w_1} + v_{w_2} + \cdots + v_{w_C})^T \tag{18} \end{align}$

$C$ 是上下文中词的数量。

损失函数

E = - log p (w O | w I, 1, \dots, w I, C) = - u j * + log \sum j' = 1 V e u j' = - v' w O T \cdot h + log \sum j' = 1 V e - v' w j T \cdot h (19)

$\begin{align} E & = -\log p(w_O | w_{I,1}, \cdots, w_{I,C}) \\ & = -u_{j^*} + \log \sum_{j^{\prime}=1}^{V} e^{u_{j^{\prime}}} \\ & = {-v_{w_O}^{\prime}}^T \cdot h + \log \sum_{j^{\prime}=1}^{V} e^{ {-v_{w_j}^{\prime}}^T \cdot h} \tag{19} \end{align}$

隐含层与输出层之前参数的更新

v' w j (n e w) = v' w j (o l d) - η e j h, j = 1, 2, \dots, V (20)

${v_{w_j}^{'}}^{(new)} = {v_{w_j}^{'}}^{(old)} - \eta e_j h, \ j = 1,2, \cdots, V \tag{20}$

对于每一个训练样本，需要将(20)式的参数更新应用于隐含层和输出层之间的每一个元素。

输入层与隐含层之间参数的更新

v (n e w) w I, c = v (o l d) w I, c - 1 C η E H T, c = 1, 2, \dots, C (21)

$v_{w_{I,c}}^{(new)} = v_{w_{I,c}}^{(old)} - \frac{1}{C} \eta EH^T,\ c=1,2,\cdots,C \tag{21}$

Skip-Gram Model

Skip-Gram Model正好跟CBoW模型相反，如图3所示。目标词现在在输入层，上下文的词在输出层。和CBoW类似，Skip-Gram的输出层权值共享，因此，也和图1类似，只是图1中输出层只有一个元素为1，而这里存在 $C$ 个为1的元素。

Skip-Gram

同样使用 $w_I$ 来表示输入向量，因为输入层只有一个词(目标词)，隐含层的输出便和(1)式完全一样，即

h (N \times 1) = (W (V \times N) T) (N \times V) x (V \times 1) = (W T (k, \cdot)) (\cdot, k) : = v T w I (22)

$h_{(N \times 1)}=({W_{(V \times N) }}^T)_{(N \times V)} x_{(V \times 1)} = (W_{(k,\cdot)}^T)_{(\cdot , k)} := v_{w_I}^T \tag{22}$

对于输出层的输出，不再只输出一个多项式分布，现在总共有 $C$ 个多项式分布的输出

p (w c, j = w O, c | w I) = y c, j = e u c , j \sum V j ' = 1 e u j ' (23)

$p(w_{c,j} = w_{O,c}|w_I) = y_{c,j} = \frac{e^{u_{c,j}}}{\sum_{j^{'}=1}^{V} e^{u_{j^{'}}}} \tag{23}$

其中 $w_{c,j}$ 为输出层的第 $c$ 个多项式分布的第 $j$ 个词。 $w_{O,c}$ 为期望输出的那个词。 $w_I$ 为输入的词。 $y_{c,j}$ 为输出层中第 $c$ 个多项式分布的第 $j$ 个词输出值。 $u_{c,j}$ 为输出层中第 $c$ 个面板的输入值。由于输出层权值共享，所以

u c, j = u j = v' w j T \cdot h, c = 1, 2, \dots, C (24)

$u_{c,j} = u_j = {v_{w_j}^{'}}^T\cdot h, \ c=1,2,\cdots, C \tag{24}$

其中， $v_{w_j}^{'}$ 词典中第 $j$ 个词 $w_j$ 的输出向量。

参数的更新与上下文只有一个词的情况类似，即

E = - log p (w O, 1, w O, 2, \dots, w O, C | w I) = - log \prod c = 1 C e u c , j * c \sum V j ' = 1 e u j ' = - \sum c = 1 C u j * c + C \cdot log \sum j' = 1 V e u j'

$\begin{align} E & = -\log p(w_{O,1}, w_{O,2}, \cdots, w_{O,C} | w_I) \\ & = -\log \prod_{c=1}^{C} \frac{e^{u_{c,j_c^*}}}{\sum_{j^{'}=1}^{V}e^{u_{j^{'}}}} \\ & = -\sum_{c=1}^C u_{j_c^*} + C \cdot \log \sum_{j^{'}=1}^{V}e^{u_{j^{'}}} \end{align}$

其中， $u_{j_c^*}$ 为期望的第 $c$ 个上下文词在词典中的index。

对输出层的输入求偏导

\partial E \partial u c , j = y c, j - t c, j : = e c, j (25)

$\frac{\partial E}{\partial u_{c,j}} = y_{c,j} - t_{c,j} := e_{c,j} \tag{25}$

定义一个 $V$ 维的向量 $EI = \{EI_1, \cdots, EI_V\}$ 作为所有上下文词的预测误差

E I j = \sum c = 1 C e c, j (26)

$EI_j = \sum_{c=1}^{C}e_{c,j} \tag{26}$

对隐含层和输出层之间的权重 $W^{'}$ 求偏导

\partial E \partial w ' i j = \sum c = 1 C \partial E \partial u c , j \cdot \partial u c , j \partial w ' i j = E I j \cdot h i (27)

$\frac{\partial E}{\partial w_{ij}^{\prime}} = \sum_{c=1}^{C} \frac{\partial E}{\partial u_{c,j}} \cdot \frac{\partial u_{c,j}}{\partial w_{ij}^{\prime}} = EI_j \cdot h_i \tag{27}$

因此， $W^{'}$ 的参数更新为

w' i j (n e w) = w' i j (o l d) - η E I j h i (28)

${w_{ij}^{'}}^{(new)} = {w_{ij}^{'}}^{(old)} - \eta EI_j h_i \tag{28}$

或

v' w j (n e w) = v' w j (o l d) - η E I j h, j = 1, 2, \dots, V (29)

${v_{w_j}^{'}}^{(new)} = {v_{w_j}^{'}}^{(old)} - \eta EI_j h, \ j = 1,2, \cdots, V \tag{29}$

参数 $W$ 的更新为

v (n e w) w I = v (o l d) w I - η E H T (30)

$v_{w_I}^{(new)} = v_{w_I}^{(old)} - \eta EH^T \tag{30}$

其中 $EH$ 为 $V$ 维向量

E H i = \sum j = 1 V E I j \cdot w' i j (31)

$EH_i = \sum_{j=1}^{V} EI_j \cdot w_{ij}^{'} \tag{31}$

Optimizing Computational Efficiency

对于上文所描述的模型，每个词都能有两种向量表示，输入向量 $v_w$ 和输出向量 $v_{w}^{'}$ 。其中，输入向量的学习是容易的，而输出向量的学习是困难的，因为为了更新 $v_w^{'}$ ，需要对词典中的每一个词都计算输出层的输入 $u_j$ ，输出层的输出 $y_j$ ，以及预测误差 $e_j$ 。当词汇量很大，或者样本数很多的时候，这种计算方式是不可行的。下面的两种方法，都针对一个样本，通过限制输出向量的个数来减小计算量。

Hierarchical Softmax

Hierarchical Softmax是一种高效的计算softmax的方式。它采用二叉树来表示词典中的词，如下图所示。 $V$ 个词是树的叶子节点， $V-1$ 个内部节点，从根节点到达指定的叶子节点，有且只有一条路径，这条路径用来估计叶子节点所表示的那个词的概率。

Hierarchical Softmax

如上图所示，黑色的线表示从根节点啊到达词 $w_2$ 的路径，路径的长度 $L(w_2)=4$ ， $n(w,j)$ 表示从根节点到达词 $w$ 的路径上的第 $j$ 个单元。

在Hierarchical Softmax模型中，没有针对词的输出向量，但是， $V-1$ 个内部节点都有一个输出向量 $v_{n(w,j)}^{'}$ 。

定义某个词作为输出词的概率为

p (w = w O) = \prod j = 1 L (w) - 1 σ ([[n (w, j + 1) = c h (n (w, j))]] \cdot v' n (w, j) T h) (32)

$p(w=w_O) = \prod_{j=1}^{L(w)-1} \sigma ([\![n(w,j+1) = ch(n(w,j)) ]\!] \cdot {v_{n(w,j)}^{'}}^T h) \tag{32}$

其中， $ch(n)$ 为 $n$ 单元的做孩子， $v_{n(w,j)}^{'}$ 为内部单元 $n(w,j)$ 的向量表示(输出向量)。 $h$ 为隐含层的输出， $[\![x]\!]$ 被定义为

[[x]] = {1 - 1 x 为 真 x 为 假 (33)

$[\![x]\!] = \begin{cases} 1& \text{x为真}\\ -1& \text{x为假} \end{cases} \tag{33}$

在上图中，计算 $w_2$ 为输出词的概率。在每个内部节点，行走的路径是随机的(往左和往右存在一定的概率)。定义，在内部节点 $n$ ，向左走的概率为

p (n, l e f t) = σ (v' n T \cdot h) (34)

$p(n,left) = \sigma ({v_n^{'}}^T \cdot h) \tag{34}$

因此，往右走的概率为

p (n, r i g h t) = 1 - σ (v' n T \cdot h) = σ (- v' n T \cdot h) (35)

$p(n,right) = 1 - \sigma ({v_n^{'}}^T \cdot h) = \sigma (-{v_n^{'}}^T \cdot h) \tag{35}$

所以，在上图中， $w_2$ 为输出词的概率为

p (w 2 = w O) = p (n (w 2, 1), l e f t) \cdot p (n (w 2, 2), l e f t) \cdot p (n (w 2, 3), r i g h t) = σ (v' n (w 2, 1) T h) \cdot σ (v' n (w 2, 2) T h) \cdot σ (- v' n (w 2, 3) T h) (36)

$\begin{align} p(w_2=w_O) & = p(n(w_2,1),left) \cdot p(n(w_2,2),left) \cdot p(n(w_2,3),right) \\ & = \sigma ({v_{n(w_2,1)}^{'}}^T h) \cdot \sigma ({v_{n(w_2,2)}^{'}}^T h) \cdot \sigma (-{v_{n(w_2,3)}^{'}}^T h) \tag{36} \end{align}$

现在来看内部节点的向量表示是如何更新的。首先考虑只有一个词的上下文。为了方便，对公式作适当的简写

[[\cdot]] : = [[n (w, j + 1) = c h (n (w, j))]] v' j : = v' n (w, j) (37) (38)

$\begin{align} [\![ \cdot ]\!] := [\![n(w,j+1) = ch(n(w,j)) ]\!] \tag{37} \\ v_j^{'} := v_{n(w,j)}^{'} \tag{38} \end{align}$

对于每个训练样本，其损失函数为

E = - log p (w = w O | w I) = - \sum j = 1 L (w) - 1 log σ ([[\cdot]] v' j T h) (39)

$E = - \log p(w=w_O|w_I) = -\sum_{j=1}^{L(w)-1} \log \sigma ([\![ \cdot ]\!]{v_j^{'}}^T h) \tag{39}$

对损失函数 $E$ 求关于 $v_j^{'}h$ 的偏导

\partial E \partial v ' j h = (σ ([[\cdot]] v' j T h) - 1) [[\cdot]] = ⎧ ⎩ ⎨ σ (v' j T h) - 1 σ (v' j T h) [[\cdot]] = 1 [[\cdot]] = - 1 = σ (v' j T h) - t j (40)

$\begin{align} \frac{\partial E}{\partial v_j^{'}h} & = \left( \sigma ([\![ \cdot ]\!] {v_j^{'}}^T h) -1 \right) [\![ \cdot ]\!] \\ & = \begin{cases} \sigma ({v_j^{'}}^T h ) -1 & [\![ \cdot ]\!] = 1 \\ \sigma ({v_j^{'}}^T h ) & [\![ \cdot ]\!] = -1 \end{cases} \\ & = \sigma ({v_j^{'}}^T h ) - t_j \tag{40} \end{align}$

然后，对损失函数 $E$ 求关于 $v_j^{'}$ (即内部节点 $n(w,j)$ 的向量表示)的偏导

\partial E \partial v ' j = \partial E \partial v ' j h \cdot \partial v ' j h \partial v ' j = (σ (v' j T h) - t j) \cdot h (41)

$\frac{\partial E}{\partial v_j^{'}} = \frac{\partial E}{\partial v_j^{'}h} \cdot \frac{\partial v_j^{'}h}{\partial v_j^{'}} = \left( \sigma ({v_j^{'}}^T h ) - t_j \right) \cdot h \tag{41}$

因此，更新方程为

v' j (n e w) = v' j (o l d) - η (σ (v' j T h) - t j) \cdot h (42)

${v_j^{'}}^{(new)} = {v_j^{'}}^{(old)} - \eta\left( \sigma ({v_j^{'}}^T h ) - t_j \right) \cdot h \tag{42}$

可以将 $\sigma ({v_j^{'}}^T h ) - t_j$ 理解为内部节点 $n(w,j)$ 的预测误差。每个内部节点的任务是预测往左孩子走还是右孩子走。 $t_j=1$ 表示往左， $t_j=0$ 表示往右。 $\sigma ({v_j^{'}}^T h )$ 表示预测结果。对于一个训练样本，如果预测结果和真实值很接近，则 $v_j^{'}$ 的变化会很小，否则， $v_j^{'}$ 会变化一个合适的大小来达到更小的预测误差。

式(42)同样可以用来更新CBoW和skip-gram的参数。

为了学习输入层和隐含层的权重，求 $E$ 关于隐含层输出 $h$ 的偏导数

\partial E \partial h = \sum j = 1 L (w) - 1 \partial E \partial v ' j h \cdot \partial v ' j h \partial h = \sum j = 1 L (w) - 1 (σ (v' j T h) - t j) \cdot v' j : = E H (43)

$\begin{align} \frac{\partial E}{\partial h} & = \sum_{j=1}^{L(w)-1} \frac{\partial E}{\partial v_j^{'}h} \cdot \frac{\partial v_j^{'}h}{\partial h} \\ & = \sum_{j=1}^{L(w)-1} \left( \sigma ({v_j^{'}}^T h ) -t_j \right) \cdot v_j^{'} \\ & := EH \tag{43} \end{align}$

因此，可以用CBoW和skip-gram的更新方式来更新权重。

从更新的方程可以看出，每个训练样本的计算复杂度从 $O(V)$ 降到了 $O(\log (V))$ ，这可以极大地改善训练的速度。

Negative Sampling

前文曾经提到过，必须计算词典中所有词的输出向量，这给计算量带来了极大的负担。为了解决这个问题，现在只计算部分的输出向量。

期望输出的那个词必须在取样的样本中，然后再选取部分词作为负样本。

后续的计算过程与Hierarchical Softmax类似，这里不再赘述。

参考文献

[1] Rong X. word2vec Parameter Learning Explained[J]. Computer Science, 2014.
[2] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

extremebingo

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
word2vec

word2vec模型是由Mikolov于2013年提出的。由word2vec模型学习的单词向量已经被证明具有语义的意义，并且在各种NLP任务中都很有用。当提到word2vec算法或模型的时候，指的是其背后用于计算word vector的CBoW模型和Skip-gram模型，它们只是浅层神经网络，并不是深度学习算法。本文主要介绍原始的continuous bag-of-word(CBOW)和skip-
复制链接

扫一扫