Python gensim库word2vec 基本用法_使用word2vec是不是就不需要先用ji额ba分词啥的了(1)

编程彪炳

于 2024-04-27 06:32:07 发布

阅读量1k

点赞数 13

文章标签： python word2vec 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60635224/article/details/138237836

版权

本文介绍了如何使用Gensim库进行word2vec模型的训练，包括参数设置、训练数据准备（如使用Text8Corpus加载英文文本或分词的中文文本）、模型保存与加载，以及实战示例。着重讲解了训练过程中的关键参数及其影响。

摘要由CSDN通过智能技术生成

ip install gensim安装好库后，即可导入使用：

1、训练模型定义

参数解释：

0.sentences是训练所需语料，可通过以下方式进行加载

sentences=word2vec.Text8Corpus(file)

此处训练集的格式为英文文本或分好词的中文文本

.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。

2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）。

4.min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。

5.negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3。

6.hs=1表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被选择使用。

7.workers控制训练的并行，此参数只有在安装了Cpython后才有效，否则只能使用单核。

详细参数说明可查看word2vec源代码。

最低0.47元/天解锁文章

关注

13
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Python gensim库word2vec 基本用法_使用word2vec是不是就不需要先用ji额ba分词啥的了(1)

参数解释：0.sentences是训练所需语料，可通过以下方式进行加载此处训练集的格式为英文文本或分好词的中文文本.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，一般值取为100到200之间。3.window是句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。