通过查看已有模型可以看出,已经将出现频率小于5次的词语进行了剔除
因此,在放入实际数据进行计算相似度的时候,很多文本在语料库里面都是没有的
这就造成了结果的缺失
这种时候,可以选择word2vec的增量训练,也可以选择对输出结果手动
增量训练code:
model_test.build_vocab(sentences_cut,update=True) #update = True
model_test.train(sentences_cut,total_examples=model_test.corpus_count,epochs=model_test.iter)
对于特殊文本我是这样处理的:
首先对文本进行分词
通过判断分词之后的每个词语之间的相似性
再得到整个文本的相似性,从而得出结论
但是这样也是特殊情况的,那就是有些词语是别名,所以无法匹配
现有结果的相似性也限于字面相似的文本