BloomFilter

原创 2015年07月07日 17:12:16

BloomFilterUtil:

import java.util.BitSet;

/**
 * User: jayden.xu
 * Date: 2015/7/7
 * Time: 16:52
 */
public class BloomFilterUtil {
	/*  BitSet初始分配2^24个bit  */
	private static final int DEFAULT_SIZE = 1 << 25;
	/* 不同哈希函数的种子,一般应取质数 */
	private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 };
	private BitSet bits = new BitSet(DEFAULT_SIZE);
	/* 哈希函数对象 */
	private SimpleHash[] func = new SimpleHash[seeds.length];

	public BloomFilterUtil() {
		for (int i = 0; i < seeds.length; i++) {
			func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
		}
	}

	// 将字符串标记到bits中
	public void add(String value) {
		for (SimpleHash f : func) {
			bits.set(f.hash(value), true);
		}
	}

	//判断字符串是否已经被bits标记
	public boolean contains(String value) {
		if (value == null) {
			return false;
		}
		boolean ret = true;
		for (SimpleHash f : func) {
			ret = ret && bits.get(f.hash(value));
		}
		return ret;
	}

	/* 哈希函数类 */
	private static class SimpleHash {
		private int cap;
		private int seed;

		public SimpleHash(int cap, int seed) {
			this.cap = cap;
			this.seed = seed;
		}

		//hash函数,采用简单的加权和hash
		public int hash(String value) {
			int result = 0;
			int len = value.length();
			for (int i = 0; i < len; i++) {
				result = seed * result + value.charAt(i);
			}
			return (cap - 1) & result;
		}
	}
}


版权声明:本文为博主原创文章,未经博主允许不得转载。

BloomFilter——大规模数据处理利器(爬虫判重)

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html Bloom Filter是由Bloom在1970年提出的一种多哈希函...

bloomFilter实现海量字符串查找

  • 2013年11月23日 19:31
  • 4KB
  • 下载

Hbase中的BloomFilter(布隆过滤器)

Hbase中的BloomFilter(布隆过滤器)

Url消重算法(BloomFilter)

  • 2008年02月12日 15:19
  • 19KB
  • 下载

BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:BloomFilter
举报原因:
原因补充:

(最多只允许输入30个字)