轻松理解skip-gram模型

原创已于 2022-05-04 09:19:37 修改 · 9w 阅读

296 ·

CC 4.0 BY-SA版权

文章标签：

#NLP #神经网络 #skip-gram #BP #随机梯度下降

于 2017-12-05 16:01:00 首次发布

Machine_learning 同时被 2 个专栏收录

58 篇文章

订阅专栏

机器学习

51 篇文章

订阅专栏

本文介绍了Word2vec中的Skip-gram模型，详细解释了模型如何通过one-hot编码的输入向量预测上下文单词，并利用BP算法及随机梯度下降法进行权重学习。

引言

在许多自然语言处理任务中，许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性，但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下，为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的：

通过词向量来计算两个单词的语义相似性
对某些监督型NLP任务如文本分类，语义分析构造特征

接下来我将描述Word2vec其中一个模型，叫做skip-gram模型

skip-gram模型

在我详细介绍skip-gram模型前，我们先来了解下训练数据的格式。skip-gram模型的输入是一个单词 $w_I$ ，它的输出是 $w_I$ 的上下文 ${w_{O,1},...,w_{O,C}}$ ，上下文的窗口大小为 $C$ 。举个例子，这里有个句子“I drive my car to the store"。我们如果把"car"作为训练输入数据，单词组{“I”, “drive”, “my”, “to”, “the”, “store”}就是输出。所有这些单词，我们会进行one-hot编码。skip-gram模型图如下所示：

前向传播

接下来我们来看下skip-gram神经网络模型，skip-gram的神经网络模型是从前馈神经网络模型改进而来，说白了就是在前馈神经网络模型的基础上，通过一些技巧使得模型更有效。我们先上图，看一波skip-gram的神经网络模型：
nerno
在上图中，输入向量 $x$ 代表某个单词的one-hot编码，对应的输出向量{ $y_1$ ,…, $y_C$ }。输入层与隐藏层之间的权重矩阵 $W$ 的第 $i$ 行代表词汇表中第 $i$ 个单词的权重。接下来重点来了：这个权重矩阵 $W$ 就是我们需要学习的目标（同 $W^{'}$ ），因为这个权重矩阵包含了词汇表中所有单词的权重信息。上述模型中，每个输出单词向量也有个 $N\times V$ 维的输出向量 $W^{'}$ 。最后模型还有 $N$ 个结点的隐藏层，我们可以发现隐藏层节点 $h_i$ 的输入就是输入层输入的加权求和。因此由于输入向量 $x$ 是one-hot编码，那么只有向量中的非零元素才能对隐藏层产生输入。因此对于输入向量 $x$ 其中 $x_k=1$ 并且$x_{k^{‘}}=0, k\ne k^{’} $。所以隐藏层的输出只与权重矩阵第$ k$行相关，从数学上证明如下：
$x^TW=W_{k,.}:=v_{wI}\tag{$1$}$
注意因为输入时one-hot编码，所以这里是不需要使用激活函数的。同理，模型输出结点 $C\times V$ 的输入也是由对应输入结点的加权求和计算得到：
$u_{c,j}=v^{'T}_{wj}h\tag{$2$}$
其实从上图我们也看到了输出层中的每个单词都是共享权重的，因此我们有 $u_{c,j}=u_j$ 。最终我们通过softmax函数产生第 $C$ 个单词的多项式分布。
$p(w_{c,j}=w_{O,c}|w_{I}) = y_{c,j} = \frac{exp(u_{c,j})}{\sum^V_{j^{'}=1}exp(u_{}j^{'})}\tag{$3$}$
说白了，这个值就是第C个输出单词的第j个结点的概率大小。

通过BP（反向传播）算法及随机梯度下降来学习权重

前面我讲解了skip-gram模型的输入向量及输出的概率表达，以及我们学习的目标。接下来我们详细讲解下学习权重的过程。第一步就是定义损失函数，这个损失函数就是输出单词组的条件概率，一般都是取对数，如下所示：
$-logp(w_{O,1},w_{O,2},...,w_{O,C}|w_I)\tag{$4$}$
$-log\prod_{c=1}^{C}\frac{exp(u_{c,j})}{\sum^V_{j^{'}=1exp(u_j^{'})}}\tag{$5$}$
接下来就是对上面的概率求导，具体推导过程可以去看BP算法，我们得到输出权重矩阵 $W^{'}$ 的更新规则：
$w^{'(new)} = w_{ij}^{'(old)}-\eta\cdot\sum^{C}_{c=1}(y_{c,j}-t_{c,j})\cdot h_i\tag{$6$}$
同理权重 $W$ 的更新规则如下：
$w^{(new)} = w_{ij}^{(old)}-\eta\cdot \sum_{j=1}^{V}\sum^{C}_{c=1}(y_{c,j}-t_{c,j})\cdot w_{ij}^{'}\cdot x_j\tag{$7$}$