![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本相似度
春夏秋冬又一年
数据分析师
展开
-
计算字符串相似度算法——Levenshtein
http://wdhdmx.iteye.com/blog/1343856Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。转载 2013-07-19 17:46:44 · 1446 阅读 · 0 评论 -
Bloom Filter算法
一个布隆过滤器由以下几个部分组成 (1)n个位组成的数组,每个位初始值都是0 (2)一系列哈希哈书h1,h2,h3.....hk组成的集合。每个哈希函数将“键”值映射到上述n个桶(对应于位数组的n个位)中。 (3)m个键值组成的集合S。布隆过滤器的目的是让所有键值在S中的流元素通过,而阻挡大部分键值不再S中的流元素,哈希函数hi及S中的键值K,将每个hi(K)对应的位置原创 2013-07-18 20:33:34 · 1176 阅读 · 0 评论 -
相似数据检测算法(shingle,SimHash,Bloomfilter) 比较
相似数据检测算法相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1],1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、Delta数据编码等应用。正是由于它的重要性,近年来成为了研究的重点,不断有原创 2015-11-07 20:48:51 · 4123 阅读 · 0 评论