word2vec：基于层级 softmax 和负采样的 Skip-Gram

最新推荐文章于 2023-06-15 01:14:30 发布

Alice熹爱学习

最新推荐文章于 2023-06-15 01:14:30 发布

阅读量749

点赞数

分类专栏：自然语言处理面试基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/108728583

版权

自然语言处理面试基础专栏收录该内容

34 篇文章 34 订阅 ¥69.90 ¥99.00

订阅专栏

Skip-Gram

前一篇，我们学习了什么是 CBOW，今天来看 Skip-Gram，它是 word2vec 的另一种训练思路。

Skip-Gram 和 CBOW 的思路是相反的，CBOW 是由上下文得到中心词，而 Skip-Gram 是由中心词预测上下文。

所以 Skip-Gram 的模型输入是一个中心词的词向量，输出是中心词的上下文向量。不过它并不是对 CBOW 模型的简单的颠倒，而是用一个中心词来预测窗口内除它以外的每个词，虽然从上面两个的对比图看来，Skip-Gram 的输入是一个词，输出是多个词，但其实在代码中构造训练数据时，输出也是一个词：

它的学习过程就像我们在讲 CBOW 的前向传播时输入是一个单词的那个流程一样，接下来我们看看 Skip-Gram 的前向计算和反向传播是怎样的，大家在看这部分推导时可以对比 CBOW 的内容。

前向计算

和 CBOW 中一样，模型两个核心矩阵 W 和 W‘，维度如下：

W 是 embedding 矩阵，维度是：

vocab_size * embe

了解本专栏

Alice熹爱学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec：基于层级 softmax 和负采样的 Skip-Gram

Skip-Gram前一篇，我们学习了什么是 CBOW，今天来看 Skip-Gram，它是 word2vec 的另一种训练思路。Skip-Gram 和 CBOW 的思路是相反的，CBOW 是由上下文得到中心词，而 Skip-Gram 是由中心词预测上下文。所以 Skip-Gram 的模型输入是一个中心词的词向量，输出是中心词的上下文向量。不过它并不是对 CBOW 模型的简单的颠倒，而是用一个...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。