利用gensim.models.Word2Vec构建词向量模型,包含三步:建立一个空的模型对象,遍历语料库构建词典,遍历语料库构建神经网络模型
例子:
from gensim.models.word2vec import LineSentence
model = gensim.models.Word2Vec(LineSentence('corpus.txt'), min_count=5, workers=4)
参数:
min_count指定了训练词语的最小出现次数
worker 指定了完成训练过程的线程数,默认为1不使用多线程。注意只有安装Cython
的前提下该参数设置才有意义