本篇主要用一个实例来介绍一下如何进行Word2vec和Doc2vec的训练,并对Word2vec和Doc2vec模型训练过程中的参数进行一些解读。使用的是Python版本的gensim库实现,想要了解Word2vec和Doc2vec的原理可以查看我的上一篇博客( 深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析)。代码见我的GitHub(使用Gensim库训练Word2vec和Doc2vec模型)
Word2vec
使用Gensim训练Word2vec十分方便,训练步骤如下:
1.将语料库预处理:一行一个文档或句子,将文档或句子分词(以空格分割,英文可以不用分词,英文单词之间已经由空格分割,中文预料需要使用分词工具进行分词,常见的分词工具有StandNLP、ICTCLAS、Ansj、FudanNLP、HanLP、结巴分词等);
2.将原始的训练语料转化成一个sentence的迭代器,每一次迭代返回的sentence是一个word(utf8格式)的列表。可以使用Gensim中word2vec.py中的LineSentence()方法实现;
3.将上面处理的结果输入Gensim内建的word2vec对象进行训练即可:
from gensim.models import Word2Vec
model = Word2Vec(LineSentence(inp), size=100, window=10, min_count=3,
workers=multiprocessing.cpu_count(), sg=1, iter=10, negative=20)
具体的训练参数解释如下:
class Word2Vec(utils.SaveLoad):