在NLP中,word2vec.Word2vec(**arg)参数中各个参数意思如下所示:
model = word2vec.Word2Vec(corpora, workers=num_workers, size=num_features, min_count=min_word_count, window=context, sample=downsampling)
corpora: 待处理的文本集
workers: 训练模型的线程数
size: 特征向量的维度
min_count: 若单词出现次数低于该阈值,则这个单词会被忽略
window: 窗口大小
sample: 频率高于此阈值,单词才会被采样,取值范围是(0 - 1e-3)