word2vec 的相关参数

最新推荐文章于 2024-06-10 09:35:46 发布

apple-nul

最新推荐文章于 2024-06-10 09:35:46 发布

阅读量740

点赞数

分类专栏：数据挖掘

14 篇文章 0 订阅

订阅专栏

sentences：可以是一个 list
sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。
size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
window：表示当前词与预测词在一个句子中的最大距离是多少
alpha: 是学习速率
seed：用于随机数发生器。与初始化词向量有关
min_count: 可以对字典做截断。词频少于min_count次数的单词会被丢弃掉，默认值为5
max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
workers：workers参数控制训练的并行数。
hs：如果为1则会采用hierarchica softmax技巧。如果设置为0（defaut），则negative sampling会被使用。
negative：如果>0，则会采用negative samping，用于设置多少个noise words
iter：：迭代次数，默认为5

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注