基于gensim模块的中文句子相似度计算工具

概述

中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型

这3中模型更加适用于文章相似度的计算

对于句子来说,长度太短,正确率相对不高


算法及代码

具体这几种模型的原理介绍可以参考别人的博客 

http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80

gensim包提供了这几个模型,因此我们直接拿来用就好

我将这个模型进行了简单的封装,包括增加了中文分词分句,并提供清晰简洁的API

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值