相似度使用算法:TF-IDF 相似度使用的包:gensim/jieba 相似度的计算步骤: 1)读取文档 2)对要计算的文档进行分词 3)对文档进行整理成指定格式,方便后续的计算 4)计算出词语的频率 5)【可选】对频率低的词语进行过滤 6)通过语料库(corpus从文本中提取出的语言材料)建立词典 7)加载要对比的另一个文档 8)将要对比的文档通过doc2bow转化为稀疏向量 9)对稀疏向量进行进一步处理,得到新语料库,将新语料库进行处理 10)通过models将新语料库通过TF-IDF模型进行处理,得到TF-IDF