Word2Vec总结

小虎AI实验室

已于 2022-05-10 16:30:25 修改

阅读量2.4k

点赞数 7

分类专栏： Machine_learning 机器学习文章标签： Word2Vec deep learning

于 2017-12-16 19:37:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010665216/article/details/78821598

版权

Machine_learning 同时被 2 个专栏收录

58 篇文章 42 订阅

订阅专栏

51 篇文章 29 订阅

订阅专栏

最近一段时间，我写了好几篇关于Word2vec的文章，从理论部分到具体实践，现总结如下：

理论部分

轻松理解skip-gram模型
 轻松理解CBOW模型
上述两篇博文从理论角度，讲述了Word2Vec两大模型

实践部分

Word2vec使用手册
这一篇文章主要从工具箱的角度，讲述如何使用现成的API来直接使用Word2Vec

Word2vec之情感语义分析实战（part1）
这一篇博文主要借助IMDB电影评论数据，利用词袋模型做特征构造，利用随机森林做预测，来判断一段评论是否是积极的还是消极的

Word2vec之情感语义分析实战（part2）
这一篇博文则讲述了如何在IMDB数据集上使用Word2Vec数据包，来构造分布式词向量，训练模型，并保存模型文件

Word2vec之情感语义分析实战（part3）–利用分布式词向量完成监督学习任务
这一篇博文则利用训练好的模型，对单词向量做矢量平均，或聚类，最后利用随机森林来预测。

通过上述part1,part2,part3所做的实验，我们发现词袋模型的效果比word2vec好。这个原因本质上是因为，word2vec后我们采用的矢量平均及聚类方法都忽略了单词顺序的影响，因此理论上应该和词袋模型效果差不多的。

那到底如何改善呢，我们可以尝试以下几点方法:

首先，用更多的文本来训练Word2Vec，这应该能大大提高性能。谷歌的结果是基于从超过10亿词的语料库中学到的词向量;我们的标签和未标记的训练集只有区区1800万字左右。
Word2Vec提供了一些功能，可以加载预训练的模型。其实在已发表的文献中，分布式词向量技术已经被证明比词袋模型的表现要好得多。

Word2vec:Tensorflow实战
这篇文章利用tensorflow深度学习框架实现了skip-gram模型，算是个mini版

小虎AI实验室

关注

7
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
Word2Vec总结

最近一段时间，我写了好几篇关于Word2vec的文章，从理论部分到具体实践，现总结如下：理论部分轻松理解skip-gram模型轻松理解CBOW模型上述两篇博文从理论角度，讲述了Word2Vec两大模型实践部分Word2vec使用手册这一篇文章主要从工具箱的角度，讲述如何使用现成的API来直接使用Word2VecWord2vec之情感语义分析实战（part
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小虎AI实验室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。