Data Mining
文章平均质量分 77
pstar
专注于JAVAweb开发数据挖掘linux
展开
-
the simhash algorithm(外文经典)
why? shingling gives great results but the O(n2) runtime is poor a set of 1e6 records would require 5e11 comparisons and even the cpp impl can "only" do 5e6 /sec that's 2 months of runtime, 1.999转载 2013-03-22 14:07:44 · 1054 阅读 · 0 评论 -
网页去重——Shingling 算法
shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下: In natural language processing a w-shingling is a set of unique "shingles"contiguous subsequences of tokens in a document —that can be used t原创 2012-10-17 20:30:01 · 2453 阅读 · 0 评论 -
simhash算法的原理
第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对转载 2013-03-22 13:27:41 · 726 阅读 · 0 评论 -
Bloom Filter概念、原理和分析(分析是重点)
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom转载 2013-03-23 13:42:11 · 625 阅读 · 0 评论 -
Near-duplicates and shingling
Near-duplicates and shingling One aspect we have ignored in the discussion of index size in Section 19.5 is duplication: the Web contains multiple copies of the same content. By some estimates, as转载 2013-06-27 13:21:37 · 1108 阅读 · 0 评论 -
Bloom Filter and Counting Bloom Filter
Bloom Filter: More than duplicated detection applications Bloom Filter应该算是从Hash思想继承出的一种数据结构。Bloom Filter可以说一个重要的randomized structure,不仅仅在网页去重中有应用,在其他很多地方也有。而且运用技巧后的Bloom Filter用处更加广泛。应用方面比如:转载 2013-03-23 13:09:15 · 858 阅读 · 0 评论 -
fingerprinting algorithm
In computer science, a fingerprinting algorithm is a procedure that maps an arbitrarily large data item (such as a computer file) to a much shorter bit string, its fingerprint, that uniquely identif原创 2012-10-17 20:44:17 · 1011 阅读 · 0 评论