最近写论文在看word2vec工具,训练了一个自己的模型出来,网上的资料说到已训练出来的模型word2vec是支持在不重新训练的情况下再继续添加新文本进行训练补充的(online learning),但照网上的方法出现了一些问题
参考博客:
注意只有train()方法训练出来的模型才能支持继续添加问题,另外一种生成txt或bin的方法不行。
在继续添加文本的时候需要更新词汇表,故缺少build_vocab语句也会导致失败,build_vocab语句要指定参数update=Ture。
之后还报错误需要给出total_example和epochs,这个我认为可能是版本问题和上述博客出现了一些偏差。
我的解决办法:
# 加载更多语料
model = Word2Vec.load('dic/model_01')
moresentence = worcut('dic/train_add.txt')
model.build_vocab(moresentence,update=True)
model.train(moresentence,total_examples= model.corpus_count,epochs= model.iter)
经验证,添加的新词出现在词汇表,且原有词的词向量变化了,故添加新语料应是成功了。比较有兴趣的可以研究下这个更新是如何进行的。