word2vec

最新推荐文章于 2018-09-01 23:29:21 发布

TengTG

最新推荐文章于 2018-09-01 23:29:21 发布

阅读量395

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012374510/article/details/53639981

版权

http://blog.csdn.net/itplus/article/details/37969519 word2vec 中的数学原理详解（一）目录和前言

该项目使用deep-learning技术将term表示为向量，由此计算term之间的相似度，对term聚类等，该项目也支持phrase的自动识别，以及与term等同的计算。

word2vec项目首页：https://code.google.com/p/word2vec/，

http://blog.csdn.net/jj12345jj198999/article/details/11069485 一个用这个工具进行词聚类的详细说明

后记：如果想要了解word2vec的实现原理，应该读一读官网后面的三篇参考文献。显然，最主要的应该是这篇： Distributed Representations of Words and Phrases and their Compositionality

神经网络扫盲：

http://www.cnblogs.com/heaad/archive/2011/03/07/1976443.html

阅读资料

http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C/comment-page-1

中英文维基百科语料上的Word2Vec实验

发表于 2015年03月12号由 52nlp

最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove，就有心在一个更大规模的语料上测试一下，自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源：https://dumps.wikimedia.org，可以方便的下载多种语言多种格式的维基百科数据。此前通过gensim的玩过英文的维基百科语料并训练LSI，LDA模型来计算两个文档的相似度，所以想看看gensim有没有提供一种简便的方式来处理维基百科数据，训练word2vec模型，用于计算词语之间的语义相似度。感谢Google，在gensim的google group下，找到了一个很长的讨论帖：training word2vec on full Wikipedia ，这个帖子基本上把如何使用gensim在维基百科语料上训练word2vec模型的问题说清楚了，甚至参与讨论的gensim的作者Radim Řehůřek博士还在新的gensim版本里加了一点修正，而对于我来说，所做的工作就是做一下验证而已。虽然github上有一个wiki2vec的项目也是做得这个事，不过我更喜欢用python gensim的方式解决问题。

关于word2vec，这方面无论中英文的参考资料相当的多，英文方面既可以看官方推荐的论文，也可以看gensim作者Radim Řehůřek博士写得一些文章。而中文方面，推荐 @licstar的《Deep Learning in NLP （一）词向量和语言模型》，有道技术沙龙的《Deep Learning实战之word2vec》，@飞林沙的《word2vec的学习思路》, falao_beiliu 的《深度学习word2vec笔记之基础篇》和《深度学习word2vec笔记之算法篇》等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec

阅读资料http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C/comment-page-1中英文维基百科语料上的Word2Vec实
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。