【python gensim使用】word2vec词向量处理中文语料

最新推荐文章于 2024-08-10 07:30:39 发布

竹聿Simon

最新推荐文章于 2024-08-10 07:30:39 发布

阅读量7.5w

点赞数 19

分类专栏： Python word2vec 词向量自然语言处理 Python学习文章标签： python gensim 词向量 word2vec 中文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/churximi/article/details/51472300

版权

word2vec介绍

word2vec官网：https://code.google.com/p/word2vec/

word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。
word2vec计算的是余弦值，距离范围为0-1之间，值越大代表两个词关联度越高。
词向量：用Distributed Representation表示词，通常也被称为“Word Representation”或“Word Embedding（嵌入）”。

简言之：词向量表示法让相关或者相似的词，在距离上更接近。

具体使用（处理中文）

收集语料

本文：亚马逊中文书评语料，12万+句子文本。
语料以纯文本形式存入txt文本。
注意：
理论上语料越大越好
理论上语料越大越好
理论上语料越大越好
重要的事情说三遍。
因为太小的语料跑出来的结果并没有太大意义。

分词

中文分词工具还是很多的，我自己常用的：
- 中科院NLPIR
- 哈工大LTP
- 结巴分词

注意：分词文本将作为word2vec的输入文件。

分词文本示例
语料示例

word2ve

最低0.47元/天解锁文章

关注

19
点赞
踩
159

收藏

觉得还不错? 一键收藏
28
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 28

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。