中文文本相似度计算的算法:
longest common subsequence
https://rosettacode.org/wiki/Longest_common_subsequence#Python
1、最长公共子串、编辑距离(基于原文本进行查找测试,)
可以进行改进
2、分词后进行集合操作。
Jaccard相似度、
3、是在分词后,得到词项的权重进行计算
结巴分词5–关键词抽取 http://www.cnblogs.com/zhbzz2007/p/6177832.html
余弦夹角算法、欧式距离、
simhash
一个python的包接口 http://leons.im/posts/a-python-implementation-of-simhash-algorithm/
1、分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。比如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部