目录
一、基本的hash计算:霍尔法则
假设有n+2个实数a0,a1,…,an,和x的序列,要对多项式
Pn(x)= anxn+an-1xn-1+…+a1x+a0
求值,直接方法是对每一项分别求值,并把每一项求的值累加起来,这种方法十分低效,它需要进行n+(n-1)+…+1=n(n+1)/2次乘法运算和n次加法运算。有没有更高效的算法呢?答案是肯定的。通过如下变换我们可以得到一种快得多的算法,即
Pn(x)= anxn +an-1xn-1+…+a1x+a0=((…(((anx +an-1)x+an-2)x+ an-3)…)x+a1)x+a0,
这种求值的安排我们称为霍纳法则。
注意:java使用31作为因子:1、更少的冲突;2、位运算
public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}
默认的java hash值
二、Murmur Hash
非加密型哈希函数,适用于一般的哈希检索操作
三、布隆过滤器
对key进行多个hash运算,并对位数组长度进行取模,得到多个位置,接着设置这些位置的值为1
判断:若一个key不存在,则其计算的hash位置一定有一个为0
特点:
-
只要返回数据不存在,则肯定不存在。
-
返回数据存在,但只能是大概率存在。
-
同时不能清除其中的数据。
四、guava 实现 BloomFilter
《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先需要计算两个哈希函数h1(x)与h2(x)
4.1 源码
public <T> boolean put(T object, Funnel<? super T> funnel,
int numHashFunctions, BitArray bits) {
long bitSize = bits.bitSize();
//计算hash值
byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
//相当于两个hash函数
long hash1 = lowerEight(bytes);
long hash2 = upperEight(bytes);
boolean bitsChanged = false;
long combinedHash = hash1;
for (int i = 0; i < numHashFunctions; i++) {
// Make the combined hash positive and indexable
bitsChanged |= bits.set((combinedHash & Long.MAX_VALUE) % bitSize);
combinedHash += hash2;
}
return bitsChanged;
}
public <T> boolean mightContain(T object, Funnel<? super T> funnel,
int numHashFunctions, BitArray bits) {
long bitSize = bits.bitSize();
byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
long hash1 = lowerEight(bytes);
long hash2 = upperEight(bytes);
long combinedHash = hash1;
for (int i = 0; i < numHashFunctions; i++) {
// Make the combined hash positive and indexable
if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
return false;
}
combinedHash += hash2;
}
return true;
}
4.2 应用
BloomFilter bloomFilter = BloomFilter.create(Funnels.integerFunnel(), 10000000, 0.1);
for (int i = 0; i < 1000000; i ++){
bloomFilter.put(i);
}
System.out.println("10存在?" + bloomFilter.mightContain(10));
System.out.println("1000000存在?" + bloomFilter.mightContain(1000000));