比较两个文本的相似性

使用余弦定理来实现对两个文本相似性的比较:

余弦公式

python代码位置:http://www.oschina.net/code/snippet_1180874_22866

此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分词来比较中文的相似性,那就更好了。下面代码就用到了分词库实现文本的比较,效果提升明显。

使用分词以及余弦定理来比较两份文档的相似性的代码:

http://www.oschina.net/code/snippet_1180874_22869


原理解释参考此文章:http://my.oschina.net/BreathL/blog/42477

其它:https://pypi.python.org/pypi/NearDuplicatesDetection/0.2.0

这个python库号称可以比较两文本的相似度,但本人使用中文文件测试结果很不理想。不信大家可以试试。

转载于:https://my.oschina.net/dancing/blog/144233

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值