word2vec 的 Skip-gram(跳字)模型

本文详细介绍了word2vec的Skip-gram模型,讲解了损失函数的推导过程,以及模型训练中的反向传播算法。通过实例演示了模型如何根据中心词预测上下文词,展示词嵌入矩阵的更新步骤,帮助读者深入理解Skip-gram模型的工作原理。
摘要由CSDN通过智能技术生成

Skip-gram 模型

基于预测的语言模型(by Mikolov)

通过中心词来推断上下文一定窗口内的单词。

结构

输入一个词 w_{t},模型使用含有一个隐藏层的神经网络去正确预测 w_{t} 的上下文词 w_{t-2}, w_{t-1}, w_{t+1},w_{t+2}

结构

损失函数的推导

Skip-gram 模型试图在给定中心词的情况下,同时正确预测它的所有上下文词的概率达到最大:

\underset{\theta}{\operatorname{argmax}} p\left(w_{1}, w_{2}, \ldots, w_{C} \mid w_{\text {center}} ; \theta\right) \qquad (1)

C 是窗口大小,w 是一个词向量

对 (1) 式取对数简化求导:

\underset{\theta}{\operatorname{argmax}} \log p\left(w_{1}, w_{2}, \ldots, w_{C} \mid w_{\text {center}} ; \theta\right) \qquad (2)

在 skip-gram 模型中,用 softmax 函数作上下文词分类,softmax 的数学表示:

p\left(w_{\text {context}} \mid w_{\text {center}} ; \theta\right)=\frac{\exp \left(W^{\prime}_{(\text {context})} \cdot h\right)}{\sum_{i=1}^{V} \exp \left(W^{\prime}_{(i)} \cdot h\right)} \qquad (3)

(3) 代入 (2),在给定中心词的情况下,将它的所有上下文词的概率最大化:

\underset{\theta}{\operatorname{argmax}} \log \prod_{c=1}^{C} \frac{\exp \left(W^{\prime}_{(c)} \cdot h\right)}{\sum_{i=1}^{V} \exp \left(W^{\prime}_{(i)} \cdot h\right)} \qquad (4)

对于机器学习,习惯最小化损失函数,对

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值