布隆过滤器
当一个元素被加入集合时,通过 K个Hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它。如果这些点有任何一个0,则被检元素一定不在;如果都是1,则 被检元素很可能在。
常见Hash函数
常见的应用比较广的hash函数有MD5,SHA1,SHA256,一般用于信息安全方面,比如签名认证和加密等。
比如我们传输文件时习惯用对原文件内容计算它的MD5值,生成128 bit的整数,通常我们说的32位MD5值,
是转换为HEX格式后的32个字符。
MurmurHash是2008年发明的,相比较MD5,MurMurhash不太安全(当然MD5也被破译了,sha也可以被
破译),但是性能是MD5的几十倍;MurmurHash有很多个版本,MurmurHash3修复了MurmurHash2的一些
缺陷同时速度还要快一些,因此很多开源项目有用,比如nginx、redis、memcashed、Hadoop等,比如用于
计算一致性hash等。
布隆过滤器算法
n : 布隆过滤器预存数量
p : 假阳率
m:位图的大小
k: 哈希函数的个数
####### 获得一定数量的哈希函数
双重散列封装
如 hash1 = MurmurHash2x64(key, len ,dwseed);
hash2 = MurmurHash2x64(key, len ,dwseed);
则 hash_n = hash1 + i * hash2;