word2vec 的 Skip-gram(跳字)模型

最新推荐文章于 2023-02-22 13:55:05 发布

看正好六个字

最新推荐文章于 2023-02-22 13:55:05 发布

阅读量1.4k

点赞数 2

文章标签：自然语言处理神经网络深度学习 nlp

本文链接：https://blog.csdn.net/weixin_42192508/article/details/111590376

版权

本文详细介绍了word2vec的Skip-gram模型，讲解了损失函数的推导过程，以及模型训练中的反向传播算法。通过实例演示了模型如何根据中心词预测上下文词，展示词嵌入矩阵的更新步骤，帮助读者深入理解Skip-gram模型的工作原理。

摘要由CSDN通过智能技术生成

Skip-gram 模型

基于预测的语言模型(by Mikolov)

通过中心词来推断上下文一定窗口内的单词。

输入一个词 $w_{t}$ ，模型使用含有一个隐藏层的神经网络去正确预测 $w_{t}$ 的上下文词 $w_{t-2}, w_{t-1}, w_{t+1},w_{t+2}$ 。

损失函数的推导

Skip-gram 模型试图在给定中心词的情况下，同时正确预测它的所有上下文词的概率达到最大：

$\underset{\theta}{\operatorname{argmax}} p\left(w_{1}, w_{2}, \ldots, w_{C} \mid w_{\text {center}} ; \theta\right) \qquad (1)$

$C$ 是窗口大小，是一个词向量

对 (1) 式取对数简化求导：

$\underset{\theta}{\operatorname{argmax}} \log p\left(w_{1}, w_{2}, \ldots, w_{C} \mid w_{\text {center}} ; \theta\right) \qquad (2)$

在 skip-gram 模型中，用 softmax 函数作上下文词分类，softmax 的数学表示：

$p\left(w_{\text {context}} \mid w_{\text {center}} ; \theta\right)=\frac{\exp \left(W^{\prime}_{(\text {context})} \cdot h\right)}{\sum_{i=1}^{V} \exp \left(W^{\prime}_{(i)} \cdot h\right)} \qquad (3)$

(3) 代入 (2) ，在给定中心词的情况下，将它的所有上下文词的概率最大化：

$\underset{\theta}{\operatorname{argmax}} \log \prod_{c=1}^{C} \frac{\exp \left(W^{\prime}_{(c)} \cdot h\right)}{\sum_{i=1}^{V} \exp \left(W^{\prime}_{(i)} \cdot h\right)} \qquad (4)$

对于机器学习，习惯最小化损失函数，对

最低0.47元/天解锁文章

看正好六个字

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
word2vec 的 Skip-gram(跳字)模型

Skip-gram 模型基于预测的语言模型(by Mikolov)通过中心词来推断上下文一定窗口内的单词。输入一个词，模型使用含有一个隐藏层的神经网络去正确预测的上下文词。即模型试图在给定中心词的情况下，最大化它的上下文词的概率：神经网络结构输入层...
复制链接

扫一扫