一、首先介绍一下布隆过滤器
假如数据都进入数据库是很不安全的,我们把全量数据放入布隆过滤器,假如有黑客的话,
黑客来的时候,要在布隆过滤器里面校验一下,我们通常是吧全量数据的特征存入到布隆过滤器里面;其实布隆过滤器里面主要运用的是hash函数,一个hash值是一个数字,假如我们用int[] 来存储,经过计算我们只能存16G的不规则数据,我们应该用bit数,因为它要么0 要么‘,
二、布隆过滤器误差
如果布隆过滤器告诉你存在,那么这个数据不一定存在
但是布隆过滤器告诉你不存在,那么这个数据一定是不存在的
三、布隆过滤器常用场景
- 判断给定数据是否存在,Redis中防止缓存穿透,邮箱的垃圾邮件过滤、黑名单功能等等。
- 去重:如爬给定网站的时候对已爬取的url进行去重。
四、布隆过滤器原理
布隆过滤器的原理是,当一个元素被加入集合时,通过 K 个散列函数将这个元素映射成一个位数组中的 K 个点(offset),把它们置为 1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:如果这些点有任何一个 0,则被检元素一定不在;如果都是 1,则被检元素很可能在。这就是布隆过滤器的基本思想。
五、实现的代码
public class MyBloomFilter {
//后面hash函数会用到,用来生成不同的hash值,可以随便给,但别给奇数
private final int[] ints = {6, 8, 16, 38, 58, 68};
private Integer currentBeanCount = 0;
//你的布隆过滤器容量
private int DEFAULT_SIZE = Integer.MAX_VALUE;
//bit数组,用来存放结果
private final BitSet bitSet = new BitSet(DEFAULT_SIZE);
public MyBloomFilter() {
}
public MyBloomFilter(int size) {
if (size <= (2 << 8)) throw new RuntimeException("size is too small");
DEFAULT_SIZE = size;
}
//获取当前过滤器的对象数量
public Integer getCurrentBeanCount() {
return currentBeanCount;
}
//计算出key的hash值,并将对应下标置为true
public void push(Object key) {
Arrays.stream(ints).forEach(i -> bitSet.set(hash(key, i)));
currentBeanCount++;
}
//判断key是否存在,true不一定说明key存在,但是false一定说明不存在
public boolean contain(Object key) {
boolean result = true;
for (int i : ints) {
result = result && bitSet.get(hash(key, i));
}
return result;
}
//hash算法,借鉴了hashmap的算法
private int hash(Object key, int i) {
int h;
int index = key == null ? 0 : (DEFAULT_SIZE - 1 - i) & ((h = key.hashCode()) ^ (h >>> 16));
return index > 0 ? index : -index;
}
}