文本相似度算法的整理和python实现

中文文本相似度计算的算法:

longest common subsequence
https://rosettacode.org/wiki/Longest_common_subsequence#Python

1、最长公共子串、编辑距离(基于原文本进行查找测试,)
可以进行改进

2、分词后进行集合操作。
Jaccard相似度、

3、是在分词后,得到词项的权重进行计算
结巴分词5–关键词抽取 http://www.cnblogs.com/zhbzz2007/p/6177832.html
余弦夹角算法、欧式距离、

simhash
一个python的包接口 http://leons.im/posts/a-python-implementation-of-simhash-algorithm/

1、分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。比如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值