训练一个词向量,输入是一个txt文档,这个txt文档需要已经分好了词。只需要几行代码就能得到训练好的词向量。
import multiprocessing
采用并行计算
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
inp = 'corpus_zh.txt' #这个TXT文档需要放在当前目录
model = Word2Vec(LineSentence(inp), size = 100, window = 5, min_count = 5, workers = multiprocessing.cpu_count())
#上面的size表示要生成100维的向量
model.save('zh-model') #把训练好的模型保存在当前目录
如果下次要把训练好的模型载入,只需要:
from gensim.models import Word2Vec
model = Word2Vec.load('./zh-model')
训练词向量就是这么简单粗暴