min_count
model = Word2Vec(sentences, min_count=10) # default value is 5
在不同大小的语料集中,我们对于基准词频的需求也是不一样的。譬如在较大的语料集中,我们希望忽略那些只出现过一两次的单词,这里我们就可以通过设置min_count参数进行控制。一般而言,合理的参数值会设置在0~100之间。
size
model = Word2Vec(sentences, size=200) # default value is 100
size参数主要是用来设置神经网络的层数,Word2Vec 中的默认值是设置为100层。更大的层次设置意味着更多的输入数据,不过也能提升整体的准确度,合理的设置范围为 10~数百。
workers
model = Word2Vec(sentences, workers=4) # default = 1 worker = no parallelization
workers参数用于设置并发训练时候的线程数,不过仅当Cython安装的情况下才会起作用