布隆过滤器

最新推荐文章于 2024-08-11 16:03:42 发布

Liyewen0507

最新推荐文章于 2024-08-11 16:03:42 发布

阅读量106

点赞数

文章标签：大数据 java spring 自然语言处理

本文链接：https://blog.csdn.net/qq_38248160/article/details/113809409

版权

本文介绍了布隆过滤器的工作原理及其在解决缓存穿透问题中的作用。布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否可能在一个集合中。虽然存在误判风险，但其占用内存小、查询速度快的特点使其在数据存储和检索中具有优势。文中提到了Guava和Redis中实现布隆过滤器的方法，并讨论了其优缺点。

摘要由CSDN通过智能技术生成

今天的文章和大家一起来学习——布隆过滤器。《数学之美》一书中系列二十一讲述的就是布隆过滤器，在日常的开发中我们经常要判断一个元素是否在一个集合中，比如需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中），哈希表在处理这类问题上会占用大量存储空间，而布隆过滤器在这方面有很好的优势。

我们经常会把一部分数据放在Redis等缓存，比如产品详情。这样有查询请求进来，我们可以根据产品Id直接去缓存中取数据，而不用读取数据库，这是提升性能最简单，最普遍，也是最有效的做法。一般的查询请求流程是这样的：先查缓存，有缓存的话直接返回，如果缓存中没有，再去数据库查询，然后再把数据库取出来的数据放入缓存，一切看起来很美好。但是如果现在有大量请求进来，而且都在请求一个不存在的产品Id，会发生什么？既然产品Id都不存在，那么肯定没有缓存，没有缓存，那么大量的请求都怼到数据库，数据库的压力一下子就上来了，还有可能把数据库打死。
虽然有很多办法都可以解决这问题，但是我们的主角是“布隆过滤器”，没错，“布隆过滤器”就可以解决（缓解）缓存穿透问题。

布隆过滤器是由巴顿布隆于1970年提出的，下面介绍它的工作原理：

布隆过滤器本身的结构非常简单，就是一个一维的bool型的数组，也就是说每一位只有0或者1，是一个bit，这个数组的长度是m。对于每个新增的项，我们使用K种不同的hash算法对它计算hash值。所以我们可以得到K个hash值，我们用hash值对m取模，假设是x。刚开始的时候数组内全部都是0，我们把所有x对应的位置标记为1。

举个例子，假设我们一开始m是10，K是3。我们遇到第一个插入的值是”线性代数“，我们对它hash之后得到1，3，5，那么我们将对应的位置标记成1.

然后我们又遇到了一个值是”高等数学“，hash之后得到1，8，9，我们还是将对应位置赋值成1，会发现1这个位置对应的值已经是1了，我们忽略就好。

如果这个时候我们想要判断”概率统计”有没有出现过，怎么办？很简单，我们对“概率统计”再计算hash值。假设得到1，4，5，我们去遍历一下对应的位置，发现4这个位置是0，说明之前没有添加过“概率统计”，显然“概率统计”没有出现过。

但是如果“概率统计”hash之后的结果是1，3，8呢？我们判断它出现过就错了，答案很简单，因为虽然1，3，8这个hash组合之前没有出现过，但是对应的位置都在其他元素中出现过了，这样就出现误差了。所以我们可以知道，布隆过滤器对于不存在的判断是准确的，但是对于存在的判断是有可能有错误的。

相信经过我这么一介绍，大家对布隆过滤器应该有一个浅显的认识了，至少你应该清楚布隆过滤器的优缺点了：

优点：由于存放的不是完整的数据，所以占用的内存很少，而且新增，查询速度够快；
缺点：随着数据的增加，误判率随之增加；无法做到删除数据；只能判断数据是否一定不存在，而无法判断数据是否一定存在。

guava实现布隆过滤器

现在相信你对布隆过滤器应该有一个比较感性的认识了，布隆过滤器核心思想其实并不难，难的在于如何设计随机映射函数，到底映射几次，二进制向量的长度设置为多少比较好，这可能就不是一般的开发可以驾驭的了，好在Google大佬给我们提供了开箱即用的组件，来帮助我们实现布隆过滤器。

redis实现布隆过滤器

上面使用guava实现布隆过滤器是把数据放在本地内存中，无法实现布隆过滤器的共享，我们还可以把数据放在redis中，用 redis来实现布隆过滤器，我们要使用的数据结构是bitmap。

Liyewen0507

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器

今天的文章和大家一起来学习——布隆过滤器。《数学之美》一书中系列二十一讲述的就是布隆过滤器，在日常的开发中我们经常要判断一个元素是否在一个集合中，比如需要检查一个英语单词是否拼写正确（也就是要判断它是否在一致的字典中），哈希表在处理这类问题上会占用大量存储空间，而布隆过滤器在这方面有很强的优势。我们经常会把一部分数据放在Redis等缓存，比如产品详情。这样有查询请求进来，我们可以根据产品Id直接去缓存中取数据，而不用读取数据库，这是提升性能最简单，最普遍，也是最有效的做法。一般的查询请求流程是这样的：先
复制链接

扫一扫