基于Redis的布隆过滤器的实现

最新推荐文章于 2025-04-21 01:35:57 发布

孔天逸

最新推荐文章于 2025-04-21 01:35:57 发布

阅读量3w

点赞数 4

分类专栏： Python redis Scrapy 文章标签： redis python爬虫

我开通了CSDN小店，有钱捧个钱场~

本文链接：https://blog.csdn.net/qq_30242609/article/details/71024458

版权

项目简介

包含一个基于Redis的布隆过滤器的实现，以及应用到Scrapy中的Demo。

地址：BloomFilterRedis

布隆过滤器

网上有很多介绍，推荐《数学之美》，介绍的很详尽，此处不再赘述。

哈希函数

布隆过滤器中需要n个哈希函数，我使用的是Arash Partow提供的常见哈希函数。

建立在Redis上的布隆过滤器

Redis中有一个数据结构叫做Bitmap(下方有官网详解)，它提供一个最大长度为512MB（2^32）的位数组。我们可以把它提供给布隆过滤器做位数组。

根据《数学之美》中给出的数据，在使用8个哈希函数的情况下，512MB大小的位数组在误报率万分之五的情况下可以对约两亿的url去重。而若单纯的使用set()去重的话，以一个url64个字节记，两亿url约需要128GB的内存空间,不敢想象。

我使用的策略是使用哈希函数算出的哈希值对2^32取模，填入bitmap中。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孔天逸 没有钱用，只能写写博客这样子~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。