【python gensim使用】word2vec词向量处理英文语料

最新推荐文章于 2025-04-08 09:24:53 发布

竹聿Simon

最新推荐文章于 2025-04-08 09:24:53 发布

阅读量2.8w

点赞数 11

分类专栏： Python 自然语言处理 word2vec Python学习文章标签： python gensim 词向量 word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/churximi/article/details/51472203

版权

本文介绍了如何使用Python的gensim库进行word2vec词向量处理，详细讲述了word2vec的基本概念，包括其计算词与词之间关联度的方法，并提供了收集语料、使用gensim训练词向量的步骤。通过示例代码展示了具体操作过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

word2vec介绍

word2vec官网：https://code.google.com/p/word2vec/

word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。
word2vec计算的是余弦值，距离范围为0-1之间，值越大代表两个词关联度越高。
词向量：用Distributed Representation表示词，通常也被称为“Word Representation”或“Word Embedding（嵌入）”。

简言之：词向量表示法让相关或者相似的词，在距离上更接近。

具体使用

收集语料

本文：
网上的英文语料：http://mattmahoney.net/dc/text8.zip
语料训练信息：training on 85026035 raw words (62529137 effective words) took 197.4s, 316692 effective words/s

该语料编码格式UTF-8，存储为一行，长度很长……如下：
语料文本信息

注意：
理论上语料越大越好
理论上语料越大越好
理论上语料越大越好
重要的事情说三遍。
因为太小的语料跑出来的结果并没有太大意义。

word2vec使用

python，利用gensim模块。
win7系统下在通常的python基础上gensim模块不太好安装，所以建议使用anaconda，具体参见：python开发之anaconda【以及win7下安装gensim

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。