Java版本的BloomFilter (布隆过滤器)

转载 2012年03月26日 09:56:51

一般比较常见的应用是字符串去重..也就是采集网址去重.防止重复采集

Java代码 复制代码 收藏代码
  1. BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("D:\\Users\\caiqing\\workspace\\CQ\\library\\dictionary-utf8.TXT"),"UTF-8")) ;   
  2.         String str = null ;   
  3.         System.out.println("begin");   
  4.         long start = System.currentTimeMillis() ;   
  5.         while((str=br.readLine())!=null){   
  6.             if(bf.containsAndAdd(str)){   
  7.                 System.out.println("containsAndAdd:"+str);   
  8.             }   
  9.         }   
  10.            
  11.         br.close() ;   
  12.            
  13.         br = new BufferedReader(new InputStreamReader(new FileInputStream("D:\\Users\\caiqing\\workspace\\CQ\\library\\dictionary-utf8.TXT"),"UTF-8")) ;   
  14.             System.out.println("begin-find");   
  15.             start = System.currentTimeMillis() ;   
  16.             while((str=br.readLine())!=null){   
  17.                 if(!bf.contains(str)){   
  18.                     System.out.println("contains:"+str);   
  19.                 }   
  20.             }   
  21.                
  22.         System.out.println(System.currentTimeMillis()-start);   
  23.         br.close() ;  

 

BloomFilter布隆过滤器的java实现

网上有很多的原理解释说明,此处不再对bloom filter做过多的说明,直接上代码(注:代码参考了网上其他博客的实现,比如布隆过滤器(Bloom Filter)Java实现) [jav...

Hbase中的BloomFilter(布隆过滤器)

Hbase中的BloomFilter(布隆过滤器)

网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用

最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。...

BloomFilter布隆过滤器使用

从上一篇可以得知,BloomFilter的关键在于hash算法的设定和bit数组的大小确定,通过权衡得到一个错误概率可以接受的结果。 算法比较复杂,也不是我们研究的范畴,我们直接使用已有的实现。 ...

网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用

前言:   最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一...

使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重

Bloom Filter是一个占用空间很小、效率很高的随机数据结构,它由一个bit数组和一组Hash算法构成。可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1)。 在很多场景...

Hbase 布隆过滤器BloomFilter介绍

http://blog.csdn.net/opensure/article/details/46453681   1、主要功能 提高随机读的性能 2、存储开销 bloom filte...

Hbase 布隆过滤器BloomFilter介绍

1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是...

布隆过滤器(BloomFilter)的实现

布隆过滤器 – 空间效率很高的数据结构上面这个链接对布隆过滤器进行了比较详细的介绍,可以仔细看一看。在这里,我自己主要写一写自己的理解,并用代码实现一个简单的版本。BloomFilter往往用于数据量...

布隆过滤器(BloomFilter)

一、布隆过滤器[1] 布隆过滤器(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Java版本的BloomFilter (布隆过滤器)
举报原因:
原因补充:

(最多只允许输入30个字)