算法面试之Word2Vec

持续战斗状态

已于 2022-10-10 16:10:58 修改

阅读量379

点赞数

分类专栏：算法面试NLP必备知识文章标签：算法 word2vec 人工智能自然语言处理

于 2022-09-08 13:32:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43499457/article/details/126762449

版权

算法面试之Word2Vec

1.训练方法
2.层次Softmax(Hierarchical Softmax)
3.负采样（Negative Sampling）

1.训练方法

1.1 CBOW

第一种叫CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；
在cbow方法中，是用周围词预测中心词，从而利用中心词的预测结果情况，使用GradientDesent方法，不断的去调整周围词的向量。当训练完成之后，每个词都会作为中心词，把周围词的词向量进行了调整，这样也就获得了整个文本里面所有词的词向量。cbow的对周围词的调整是统一的：求出的gradient的值会同样的作用到每个周围词的词向量当中去。
cbow预测行为的次数跟整个文本的词数几乎是相等的（每次预测行为才会进行一次backpropgation, 而往往这也是最耗时的部分），复杂度大概是O(V);
生僻词没有收到专门的训练，它只是沾了周围词的光而已。
查表得到的上下文词的向量直接进行求和，再通过一个N×V的矩阵映射到输出层，对词表上每一个可能得到一个评分；并进行softmax归一化；然后和标注进行交叉熵损失更新参数
在这里插入图片描述
一般用Win作为单词表示

1.2 Skip-gram

第二种叫Skip-gram，和CBOW正好反过来，输入某个单词，要求网络预测它的上下文单词
skip-gram是用中心词来预测周围的词<

最低0.47元/天解锁文章

持续战斗状态

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
算法面试之Word2Vec

第一种叫CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；第二种叫Skip-gram，和CBOW正好反过来，输入某个单词，要求网络预测它的上下文单词
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

持续战斗状态 很高兴可以帮到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。