在线上使用doc2vec训练时,经常需要实时的更新模型,训练新的语料和句向量,来进行接下来的文本相似度、情感分析等工作。下面的代码简单概括了doc2vec的增量训练方案。
# @author:DerrickOzil
# date: 2017-09-04
# -*- coding: utf-8 -*-
import sys
import gensim
import os
from gensim.models.doc2vec import Doc2Vec
reload(sys)
sys.setdefaultencoding('utf-8')
TaggededDocument = gensim.models.doc2vec.TaggedDocument
#获取语料集合
def get_datasest