布隆过滤器揭秘:让URL黑名单存储从640GB缩小到35.88GB!

大家好,我是小米,一个热爱分享技术的小伙伴。今天我们来聊一聊在实际工作中如何使用布隆过滤器(Bloom Filter)来处理大规模URL黑名单的存储和查询问题。

问题背景

假设我们有一个规模达到100亿的黑名单URL集合,每个URL的长度为64字节。如何高效地存储和查询这个黑名单呢?

散列表方法

我们先考虑一下常规的散列表方法。如果使用HashMap来存储这些URL:

  • 每个URL 64字节
  • 100亿个URL需要存储:100亿 * 64B = 640GB

显然,这样的存储需求是不可行的,因为它对内存的要求太高。

布隆过滤器介绍

这时候,我们可以引入布隆过滤器,它是一种高效的概率型数据结构,用于检测一个元素是否属于一个集合。布隆过滤器具有以下特点:

  • 占用空间小
  • 查询速度快
  • 允许一定的误判(即可能认为不存在的元素存在,但不会把存在的元素认为不存在)

布隆过滤器原理

布隆过滤器由一个很长的二进制位数组和一系列随机映射函数(哈希函数)组成。

  • 位数组:每个元素占用1 bit,初始时所有位都设为0。
  • 哈希函数:假设有K个哈希函数,每个函数将输入元素映射为位数组的一个下标。

插入元素

当一个元素加入布隆过滤器时,执行以下步骤:

  • 使用K个哈希函数对元素进行哈希计算,得到K个哈希值。
  • 将位数组
  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

软件求生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值