Bloom Filter概念,原理,代码。。

转载 2012年03月29日 17:20:58

1. BloomFilter概念与原理:http://blog.csdn.net/jiaomeng/article/details/1495500  (从数学上分析了错误率,最优hash函数,位数组大小的选择)

     BloomFilter介绍:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

2. BloomFilter的实现:

    这里BloomFilter主要提供两个方法,一个是加入字符串,一个是判断是否已包含相应字符串。

java实现代码

  BitSet介绍:http://songyishan.iteye.com/blog/1064863BitSet

    实际是由“二进制位”构成的一个Vector。如果希望高效率地保存大量“开-关”信息,就应使用BitSet。它只有从尺寸的角度看才有意义;如果希望的高效率的访问,那么它的速度会比使用一些固有类型的数组慢一些。此外,BitSet的最小长度是一个长整数(Long)的长度:64位。

import java.util.BitSet;

public class BloomFilter 
{
    /*  BitSet初始分配2^24个bit  */ 
    private static final int DEFAULT_SIZE = 1 << 25; 
    /* 不同哈希函数的种子,一般应取质数 */
    private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
    private BitSet bits = new BitSet(DEFAULT_SIZE);
    /* 哈希函数对象 */ 
    private SimpleHash[] func = new SimpleHash[seeds.length];

    public BloomFilter() 
    {
        for (int i = 0; i < seeds.length; i++)
        {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    // 将字符串标记到bits中
    public void add(String value) 
    {
        for (SimpleHash f : func) 
        {
            bits.set(f.hash(value), true);
        }
    }

    //判断字符串是否已经被bits标记
    public boolean contains(String value) 
    {
        if (value == null) 
        {
            return false;
        }
        boolean ret = true;
        for (SimpleHash f : func) 
        {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    /* 哈希函数类 */
    public static class SimpleHash 
    {
        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) 
        {
            this.cap = cap;
            this.seed = seed;
        }

        //hash函数,采用简单的加权和hash
        public int hash(String value) 
        {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) 
            {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }
    }
}


Bloom Filter概念和原理

  • 2010年11月28日 14:29
  • 416KB
  • 下载

Bloom Filter概念和原理.docx

  • 2012年07月26日 11:06
  • 72KB
  • 下载

Bloom Filter的概念和原理

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某...

Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某...

Bloom filter(布隆过滤器)概念与原理

在大数据与云计算发展的时代,我们经常会碰到这样的问题。我们是否能高效的判断一个用户是否访问过某网站的主页(每天访问量上亿)或者需要统计网站的pv、uv。最直接的想法是将所有的访问者存起来,然后每次用户...

海量数据处理——Bloom Filter(概念、原理及应用)

在网上看到大规模数据处理的相关文章,觉得很不错,自己加以整理,作为学习笔记与网友共勉~~ 文章结构: 一、Bloom Filter的概念原理 二、Bloom Filter实际应用实例 特此说明...

Bloom Filter概念和原理

Bloom Filter概念和原理   Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种...

Bloom Filter概念和原理

博客频道 Bloom Filter概念和原理 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bl...

URL快速排重算法:Bloom Filter概念和原理

Bloom Filter概念和原理 焦萌 2007年1月27日   Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属...

Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某...
  • IT_YUAN
  • IT_YUAN
  • 2013年05月28日 10:04
  • 455
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Bloom Filter概念,原理,代码。。
举报原因:
原因补充:

(最多只允许输入30个字)