1. 什么是布隆过滤器?
一种来检索元素是否在给定大集合中的数据结构,该数据结构由位数组和一系列哈希函数组成,高效但是具有一定的错误识别率和删除难度。
2. 布隆过滤器的原理
使用布隆过滤器中的哈希函数对元素取值,根据得到的哈希值将位数组中对应的下标置为1。如果需要判断一个元素是否存在于布隆过滤器,对给定元素再次进行相同的哈希计算,如果位数组中的每个元素都为 1,则该元素存在,否则不存在。
3. 布隆过滤器误判
由于可能存在哈希冲突,布隆过滤器判断某个元素存在,小概率会误判。但布隆过滤器判断某个元素不在,那么这个元素一定不存在
4. 布隆过滤器使用场景
1. 判断元素是否存在
用于防止缓存穿透、垃圾邮箱过滤、黑名单功能
2. 去重
5. 手动实现布隆过滤器
手动实现布隆过滤器需要以下四点:
- 合适大小的位数组(为数组过小,误判率高,为数组过大,浪费内存和CPU资源)
- 设计一系列哈希函数
- 添加元素到位数组的方法
- 判断是否存在的方法