使用tfidf加权的word2vec来计算文本向量,可以用来计算文本相似度
首先根据训练数据计算出word2vec和tfidf_model
然后预测每句时,用tfidf_model计算每个词的tfidf
再用每个词的word2vec与tfidf相乘,最后取平均得到文本向量
值得注意的是
tfidf用到了文档频率,训练数据的文档频率可以获取。
当预测每个文档时,其他的文档对tfidf模型不可见,那么是如何计算的呢,是用预测文档的tf与训练数据的idf相乘做计算?这里是全部使用训练用的tfidf