什么是布隆过滤器？如何实现布隆过滤器？

最新推荐文章于 2024-02-03 21:00:46 发布

「已注销」

最新推荐文章于 2024-02-03 21:00:46 发布

阅读量885

点赞数 25

文章标签： java 面试后端程序员找工作八股文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BASK2311/article/details/135414211

版权

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它基于位数组和多个哈希函数的原理，可以高效地进行元素的查询，而且占用的空间相对较小，如下图所示：

根据 key 值计算出它的存储位置，然后将此位置标识全部标识为 1（未存放数据的位置全部为 0），查询时也是查询对应的位置是否全部为 1，如果全部为 1，则说明数据是可能存在的，否则一定不存在。

也就是说，如果布隆过滤器说一个元素不在集合中，那么它一定不在这个集合中；但如果它说一个元素在集合中，则有可能是不存在的（存在误差）。

1.布隆执行过程

布隆过滤器的具体执行步骤如下：

在 Redis 中创建一个位数组，用于存储布隆过滤器的位向量。
初始化多个哈希函数，并将每个哈希函数的计算结果对应的位数组位置设置为 1。
添加元素到布隆过滤器时，对元素进行多次哈希计算，并将对应的位数组位置设置为 1。
查询元素是否存在时，对元素进行多次哈希计算，并检查对应的位数组位置是否都为 1。

2.布隆使用场景

布隆过滤器的主要使用场景有以下几个：

大数据量去重：可以用布隆过滤器来进行数据去重，判断一个数据是否已经存在，避免重复插入。
缓存穿透：可以用布隆过滤器来过滤掉恶意请求或请求不存在的数据，避免对后端存储的频繁访问。
网络爬虫的 URL 去重：可以用布隆过滤器来判断 URL 是否已经被爬取，避免重复爬取。

3.如何实现布隆过滤器？

在 Redis 中不能直接使用布隆过滤器，但我们可以通过 Redis 4.0 版本之后提供的 modules (扩展模块) 的方式引入，它的实现步骤如下。

① 打包RedisBloom插件

git clone github.com/RedisLabsMo…

cd redisbloom

make # 编译redisbloom

编译正常执行完，会在根目录生成一个 redisbloom.so 文件。

② 启用RedisBloom插件

重新启动 Redis 服务，并指定启动 RedisBloom 插件，具体命令如下：

redis-server redis.conf --loadmodule ./src/modules/RedisBloom-master/redisbloom.so

③ 创建布隆过滤器

创建一个布隆过滤器，并设置期望插入的元素数量和误差率，在 Redis 客户端中输入以下命令：

BF.RESERVE my_bloom_filter 0.01 100000

④ 添加元素到布隆过滤器

在 Redis 客户端中输入以下命令：

BF.ADD my_bloom_filter leige

⑤ 检查元素是否存在

在 Redis 客户端中输入以下命令：

BF.EXISTS my_bloom_filter leige

课后思考

以上我们介绍了什么是布隆过滤器？它的使用场景和执行流程，以及在 Redis 中它的使用，那么问题来了，在日常开发中，也就是在 Java 开发中，我们又将如何操作布隆过滤器呢？欢迎评论区留下您的实现方案。

本文已收录到我的面试小站公众号：【技术分享官】，其中包含的内容有：Redis、JVM、并发、并发、MySQL、Spring、Spring MVC、Spring Boot、Spring Cloud、MyBatis、设计模式、消息队列等模块。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。