Word embedding系列（二）：word2vec详解

最新推荐文章于 2022-11-09 14:27:55 发布

ty44111144ty

最新推荐文章于 2022-11-09 14:27:55 发布

阅读量562

点赞数

分类专栏：算法机器学习 nlp 文章标签： word2vec nlp 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ty44111144ty/article/details/99016771

版权

本系列分为四部分，这篇文章是本系列第二篇，一年前在公众号上有写过：Word embedding系列（二）：word2vec详解，现在搬到CSDN上~

欢迎关注我的公众号，微信搜 algorithm_Tian 或者扫下面的二维码~

现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~

本文参考了这个博客的系列文章，建议如果有空可以看一下原博客，写的容易理解又很深入详细~

word2vec我准备分为四部分介绍：

1.CBOW与Skip-gram

2.基于HierarchicalSoftmax的模型

3.基于Negative Sampling的模型

4.代码与示例

1.CBOW与Skip-gram

CBOW模型的训练输入是某个词的上下文相关词对应的词向量，输出就是这个词的词向量。

Skip-Gram模型和CBOW的思路是反着的，即输入是一个词的词向量，而输出是它对应的上下文词向量。

如图所示，是一个词w和它的上下文（context(w)）的示意图：

2.基于HierarchicalSoftmax的模型

word2vec用霍夫曼树代替隐藏层和输出层的神经元，词频为霍夫曼树节点权重。

根节点的词向量：投影后的词向量，

所有叶子节点：之前神经网络softmax输出层的神经元，

叶子节点的个数：词汇表的大小。

cbow和skipgram本质上一样，因为cbow输入的是上下文所有词向量的和，所以这里就只给出一个cbow的示意图。

skipgram和cbow的输出的区别就在于取概率最大的还是概率前n大的。

霍夫曼树中出现频次越高的词离树根越近，也就是说编码越短。在霍夫曼树中，隐藏层到输出层的softmax映射不是一下完成的，而是沿着霍夫曼树一步步完成的，因此这种softmax取名为"Hierarchical Softmax"。

在构建树时，高频放右边。规定沿着左子树走是负类(霍夫曼树编码1)，沿着右子树走是正类(霍夫曼树编码0)。使用sigmoid函数来计算是正类还是负类：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Word embedding系列（二）：word2vec详解

本系列分为四部分，这篇文章是本系列第二篇，一年前在公众号上有写过：Word embedding系列（二）：word2vec详解，现在搬到CSDN上~欢迎关注我的公众号，微信搜algorithm_Tian或者扫下面的二维码~现在保持每周更新的频率，内容都是机器学习相关内容和读一些论文的笔记，欢迎一起讨论学习~本文参考了这个博客的系列文章，建议如果有空可以看一下原博客，写的容易理...
复制链接

扫一扫

专栏目录

博客等级

码龄17年

17
原创

30
点赞

173
收藏

21
粉丝

关注

私信

热门文章

分类专栏

编辑器使用 1篇
检索
算法 16篇
机器学习 16篇
深度学习 8篇
nlp 8篇

最新评论

二阶优化方法——牛顿法、拟牛顿法(BFGS、L-BFGS)
高性能服务器: 拟牛顿法是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W.C.Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞猛进。拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。
多任务学习模型详解：Multi-gate Mixture-of-Experts（MMoE ，Google，KDD2018）
yichudu: 沙发赞一个

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。