浅谈Word2vec

最新推荐文章于 2024-04-12 16:17:52 发布

SCAU_Jimmy

最新推荐文章于 2024-04-12 16:17:52 发布

阅读量2.1k

点赞数

分类专栏：机器学习和数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011086367/article/details/54412445

版权

前段时间做过一个NLP方面的比赛，以及最近的实习，都用到了Word2vec，下面就简单谈一下这个工具吧，更深的数学原理可以参考Mikolov的原始论文。

Word2vec是Google于2013年开源的一个词向量工具，将原始文本转化成词向量的表达形式。其基本思想是：通过训练将每个词映射成K维的实数特征向量，这样一来，词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了，相比传统的one-hot，进一步挖掘了文本的更深层的含义。

原理：

采用三层神经网络：输入层 - 隐含层 - 输出层，训练部分有CBOW和Skip-gram两种实现形式，内部构建Huffman树对词进行编码，其中一个重要假设就是一个单词只与上下文的单词有关，不考虑单词间的顺序关系，这个和N-gram有点类似。此外，Word2vec本质上也是一种矩阵分解模型，矩阵刻画了每个词和其上下文的词的集合的相关情况

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈Word2vec

前段时间做过一个NLP方面的比赛，以及最近的实习，都用到了Word2vec，下面就简单谈一下这个工具吧，更深的数学原理可以参考Mikolov的原始论文。Word2vec是Google于2013年开源的一个词向量工具，将原始文本转化成词向量的表达形式。其基本思想是：通过训练将每个词映射成K维的实数特征向量，这样一来，词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了，相比传统的one-hot
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。