gensim函数训练Word2Vec模型具体参数讲解

最新推荐文章于 2024-06-10 09:35:46 发布

谢润忠

最新推荐文章于 2024-06-10 09:35:46 发布

阅读量3k

点赞数

本文链接：https://blog.csdn.net/qq_40874578/article/details/85312404

版权

本文详细介绍了gensim库中Word2Vec模型的参数，包括训练算法sg、向量维度size、窗口大小window等，并探讨了Word2Vec在中文文本处理中的应用，如词向量、CBOW与Skip-gram模型。通过下载源码、处理中文语料和运行训练，展示了如何在Windows环境下使用Word2Vec进行词向量训练，以进行后续的自然语言处理任务。

摘要由CSDN通过智能技术生成

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译。

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

参数：

· sentences：可以是一个list，对于大语料集，建议使用BrownCorpus,Text8Corpus或LineSentence构建。
· sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。
· size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
· window：表示当前词与预测词在一个句子中的最大距离是多少
· alpha: 是学习速率
· seed：用于随机数发生器。与初始化词向量有关。
· min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
· max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
· sample: 高频词汇的随机降采样的配置阈值，默认为1e-3，范围是(0,1e-5)
· workers参数控制训练的并行数。
· hs: 如果为1则会采用hierarchical softmax技巧。如果设置为0（defaut），则negative sampling会被使用。
· negative: 如果>0,则会采用negativesamping，用于设置多少个noise words
· cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（defaut）则采用均值。只有使用CBOW的时候才起作用。
· hashfxn： hash函数来初始化权重。默认使用python的hash函数
· iter：迭代次数，默认为5
· trim_rule：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
· sorted_vocab：如果为1（defaut），则在分配word index 的时候会先对单词基于频率降序排序。
· batch_words：每一批的传递给线程的单词的数量，默认为10000

1.简单介绍

PS：第一部分主要是给大家引入基础内容作铺垫，这类文章很多，希望大家自己去学习更多更好的基础内容，这篇博客主要是介绍Word2Vec对中文文本的用法。

(1) 统计语言模型

统计语言模型的一般形式是给定已知的一组词，求解下一个词的条件概率。形式如下：

统计语言模型的一般形式直观、准确，n元模型中假设在不改变词语在上下文中的顺序前提下，距离相近的词语关系越近，距离较远的关联度越远，当距离足够远时，词语之间则没有关联度。

但该模型没有完全利用语料的信息：

1) 没有考虑距离更远的词语与当前词的关系，即超出范围n的词被忽略了，而这两者很可能有关系的。

例如，“华盛顿是美国的首都”是当前语句，隔

最低0.47元/天解锁文章

谢润忠

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
gensim函数训练Word2Vec模型具体参数讲解

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=...
复制链接

扫一扫