5分钟搞懂布隆过滤器，掌握亿级数据过滤算法

「已注销」

已于 2022-07-14 22:10:19 修改

阅读量1.9k

点赞数 1

分类专栏：系统设计算法文章标签： redis 数据库

于 2022-07-13 20:46:17 首次发布

本文链接：https://blog.csdn.net/majianfei1023/article/details/125772248

版权

布隆过滤器是一种节省空间的数据结构，用于判断元素是否可能存在，但存在误判可能。在面对海量数据如40亿条记录时，传统存储如Redis将消耗大量内存，而布隆过滤器能显著降低内存占用。它利用多个哈希函数将数据映射到二进制向量，误判率可控，并广泛应用于避免重复数据、缓存等场景。虽然不支持删除，但可以通过调整参数降低误判率。

摘要由CSDN通过智能技术生成

首发于微信公众号：【码农在新加坡】，欢迎关注。

个人博客网站：5分钟搞懂布隆过滤器，掌握亿级数据过滤算法

布隆过滤器是什么

本质上布隆过滤器(Bloom Filter)是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 某样东西一定不存在或者可能存在。

相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。

可以一句话总结：

如果Bloom Filter告诉你某个数据不存在，那么它一定不存在。
如果Bloom Filter告诉你某个数据存在，那么它不一定存在。

然后你可能要问了，他都不一定存在了，那它有什么用。
它虽然不保证100%存在，但是这个误判率却是可以控制的，一般根据场景你可以设置一个可以接受的错误率，比如 0.0001(万分之一)，0.00001(十万分之一)。在很多场景下，这个概率是可以接受的。在这些场景下，它就有用武之地了。

而它的优点非常明显，就是极少的空间占用，一般比正常存所有数据可以节省90%左右以上的内存。

如果有人对具体的误判率怎么用数学公式推算出来的算法感兴趣。下面的详解部分会给出推导的链接。

实际场景

根据实际场景来让大家了解一下在什么场景下需要布隆过滤器，它又解决了什么问题。

我们有一个需求，是判断任意的两个userid有没有聊过天。即(useridA, useridB)是否聊过天，来决定前端场景是否展示对方的username。
我们最初的设计是放在Redis里面，存放的格式是：

Redis String
Key: {prefix}{useridA},{useridB}
Value: "1"

我们的Userid是int32的递增值，现在已经有10位整数。（eg: 1212341234）。所以这个key至少有22字节。

但是最终统计出来，我们的userid聊天的唯一Key：(useridA, useridB) 有4 Billion(40亿)的数据。

也就是我们至少需要存40亿的数据到Redis。

内存预估

Redis使用SDS的数据结构来储存字符串。
格式简化后如下图所示：
在这里插入图片描述

Key占用储存空间：Key(22)+SDS(9)=31;
Value占用储存空间：Value(1)+SDS(9)+redisObject(16)=26;

总内存占用：(31+26) * 4 billion = 228G。

我们预估未来还有10倍的增长空间，那就是2.28T。

当然这只是粗略的估计，Redis有更加复杂详细的规则来优化内存占用。
我自己尝试过插入一百万的数据到Redis，实际内存占用跟我的计算公式差不多。
所以这个内存占用是非常夸张的，我们需要用技术方案来优化这个内存占用。

这个时候我们就需要解决内存的占用过多的问题，布隆过滤器(Bloom Filter)闪耀登场。

详解

图解理论

布隆过滤器实际上是一个很长的二进制向量和一系列随机映射函数，二进制大家应该都清楚，存储的数据不是0就是1，默认是0。

主要用于判断一个元素是否在一个集合中，0代表不存在某个数据，1代表存在某个数据。
布隆过滤器使用k个hash函数，每个哈希函数映射到Bit位的某一位，这样当k个位都为1的时候，我们认为这个元素存在。
如图所示：
在这里插入图片描述

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
5分钟搞懂布隆过滤器，掌握亿级数据过滤算法

原文地址：码农在新加坡的个人博客本质上(Bloom Filter)是一种数据结构，比较巧妙的（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你。相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。可以一句话总结：然后你可能要问了，他都不一定存在了，那它有什么用。它虽然不保证100%存在，但是这个却是可以控制的，一般根据场景你可以设置一个可以接受的错误率，比如 0.0001(万分之一)
复制链接

扫一扫

专栏目录