概述
中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型
这3中模型更加适用于文章相似度的计算
对于句子来说,长度太短,正确率相对不高
算法及代码
具体这几种模型的原理介绍可以参考别人的博客
gensim包提供了这几个模型,因此我们直接拿来用就好
我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API
中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型
这3中模型更加适用于文章相似度的计算
对于句子来说,长度太短,正确率相对不高
具体这几种模型的原理介绍可以参考别人的博客
gensim包提供了这几个模型,因此我们直接拿来用就好
我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API