word2vec 模型的详细数学推导和直观理解

最新推荐文章于 2024-04-17 12:25:11 发布

hsiffish

最新推荐文章于 2024-04-17 12:25:11 发布

阅读量4.7k

点赞数 8

文章标签：自然语言处理计算机视觉 word2vec 数学建模

本文链接：https://blog.csdn.net/hsiffish/article/details/78673924

版权

word2vec作为一个优秀的用于产生词向量开源工具，在自然语言处理和计算机视觉领域有着很多应用，实践中效果相当好，但是很多使用者往往知其然不知其所以然。本文对word2vec Parameter Learning Explained这篇文章进行翻译和解读。深入浅出地剖析了词嵌入模型的参数学习过程，给出了详细的数学推导以及直观的解释。看完对word2vec会有一个更深层次的理解，有利于更好地使用和改进这一工具。

说明：读本文之前，需要对神经网络及后向传播有一定了解。另外，对word2vec需要有一个大概的了解。

1 连续词袋模型（CBOW）

1.1 单个单词上下文

从一个最简单的连续词袋模型开始，假设上下文只有一个单词，即输入一个目标单词，预测一个单词（而不是多个）。
下图是在上述定义之下的网络模型。
单个上下文网络模型
上图中，词汇量大小为 $V$ ，隐藏层大小为 $N$ ，各层直接都是全连接。输入是一个one-hot向量，即对于一个给定的上下文单词， $V$ 个元素 $\{x_1,...x_V\}$ 中只有一个为1，其他均为0。

解释：每个输入的向量 $\{x_1,...x_V\}$ 有 $V$ 个元素，一个元素 $x_k$ 代表一个单词。如果向量表示第 $k$ 个单词， $x_k$ 为1，其他元素均为0。

为了让大家有一个更直观具体的理解，这里给出一个具体的例子，图中假设 $V=6$ ， $N=3$ 。
直观示意图

输入层和隐藏层之间的权重可以用一个 $V\times N$ 矩阵 $W$ 表示， $W$ 的每一行是一个 $N$ 维的向量 $\mathbf v_w$ ，表示输入层对应的单词， $W$ 的第 $i$ 行用 $\mathbf v^T_w$ 表示，给定一个上下文（在这个模型中即为一个单词），假设 $x_k=1,x_{k'}=0,k'\neq k$ ，有以下式子：

h = W T x = W T k, . : = v w I (1)

$\mathbf h=\mathbf W^Tx=\mathbf W^T_{k,.}:=\mathbf v_{w_I}\qquad(1)$ 上式本质上是将

W W $\mathbf W$ 的第

k k $k$ 行复制给

h

$\mathbf h$ 。

vwI v w I $\mathbf v_{w_I}$ 是输入单词

wI w I $w_I$ 的向量表示。这表示隐藏层的激活函数是一个简单的线性函数（比如，直接将输入的加权和传递到下一层）。
隐藏层和输出层之间，有一个不同的权重矩阵

W′={ w′ij} W ′ = { w i j ′ } $\mathbf W'=\{w_{ij}'\}$ ，这是一个

N×V N × V $N \times V$ 矩阵。使用这些权重，我们可以计算词汇表（

V V $V$ 个单词组成的词汇表）中每一个单词的分值

u_{j}

$u_j$ ：

u j = v' T w j h (2)

$u_j=\mathbf v_{w_j}'^T\mathbf h \qquad (2)$ 其中，

v′wj v w j ′ $v_{w_j}'$ 是矩阵

W′ W ′ $\mathbf W'$ 的第

j j $j$ 列。

解释：输出共有 $V$ 个元素，每一个元素由 $W$ 的第 $j$ 列和 $\mathbf h$ 相乘得到（加权和），即为 $u_j$ 。

接着我们使用softmax，一个log线性分类器模型，以得到每个单词的后验概率，这是一个多项式分布：
$p (w j | w I) = y j = e x p ( u j ) \sum V j ' = 1 e x p ( u j ' ) (3)$ $p(w_j|w_I)=y_j=\frac {exp(u_j)}{\sum _{j'=1}^{V} exp(u_{j'})} \qquad (3)$ 其中， $y_j$ 是输出层的第 $j$ 个元素。
将（1）式和（2）式代入（3）式有： $p (w_{j} | w_{I}) = y_{j} = \frac{e x p (v_{w_{j}}^{' T} v_{w_{I}})}{\sum_{j^{'} = 1}^{V} e x p (v_{w_{j}}^{' T} v_{w_{I}})} (4)$ $p(w_j|w_I)=y_j=\frac {exp(\mathbf v_{w_j}'^T \mathbf v_{w_I})}{\sum _{j'=1}^{V} exp(\mathbf v_{w_j}'^T \mathbf v_{w_I})} \qquad (4)$ 注意 $\mathbf v_w$ 和 $\mathbf v_w'$ 是词语 $w$ 的两个表示。 $\mathbf v_w$ 来自输入层和隐藏层间的权重矩阵 $W$ 的行， $\mathbf v_w‘’$ 来自隐藏层和输出层间的权重矩阵 $W'$ 的列。在接下来的分析中，我们称 $\mathbf v_w$ 为词语 $w$ 的输入向量，称 $\mathbf v_w'$ 为词语 $w$ 的输出向量。

注意：在一次训练中，输入向量和输出向量不是同一个向量，不是代表同一个词语，输入的是上下文词语，输出的是由上下文推导而来的词语。

隐藏层到输出层的权重更新等式

先说更新思路，目标是最大化 $p(w_O|w_I)$ ，即要最小化损失函数 $E$ 。因此找到权重关于 $E$ 的公式，求偏导得到梯度，利用梯度更新权重，使得 $E$ 尽快下降。

尽管实际进行这种权重更新计算是不切实际的（下文有解释），但我们探究这个源头有利于理解没用任何技巧的初始模型。
我们训练的目标是为了最大化式（4）：
$max p (w O$

最低0.47元/天解锁文章

hsiffish

关注

8
点赞
踩
24

收藏

觉得还不错? 一键收藏
2
评论
word2vec 模型的详细数学推导和直观理解

word2vec作为一个优秀的用于产生词向量开源工具，在自然语言处理和计算机视觉领域有着很多应用，实践中效果相当好，但是很多使用者往往知其然不知其所以然。本文对word2vec Parameter Learning Explained这篇文章进行翻译和解读。深入浅出地剖析了词嵌入模型的参数学习过程，给出了详细的数学推导以及直观的解释。看完对word2vec会有一个更深层次的理解，有利于更好地使用和...
复制链接

扫一扫