Java学习 - 布隆过滤器

泡芙萝莉酱

于 2024-06-29 08:30:00 发布

阅读量467

点赞数 9

分类专栏： Java 文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paofuluolijiang/article/details/139969716

版权

Java 专栏收录该内容

104 篇文章 0 订阅

订阅专栏

前置需求

需求
- 已经有50亿个电话号码，现在给出10万个电话号码，如何快速准确地判断这些电话号码是否已经存在？
参考方案
- 通过数据库查询：比如MySQL，性能不行，速度太慢
- 将数据先放进内存：50亿*8字节=40GB，内存占用太大
- hyperloglog算法：准确度不行
现实类似问题
- 垃圾邮件判断
- 文字处理软件的错误单词检测
- 网络爬虫的url去重
解决方法
- 使用布隆过滤器

布隆过滤器介绍以及原理

布隆过滤器作用
- 占用很少的空间和使用较少的时间判断一个小数据集是否是一个大数据集的子集
布隆过滤器参数
- n：一个很长的二进制，n位
- m：需要放入的数据数量，m个
- k：k个哈希函数
布隆过滤器构建过程
- 初始化：原始二进制数字中的每一位都置为0
- 一个数据经过1个哈希函数会得到一个位置，该位置置1
- 一个数据经过k个哈希函数处理会，在原理二进制中会有k个位置被置1
- 所有数据重复以上两步，即可构建出对于这个数据集的布隆过滤器
布隆过滤器判断有无
- 一个数据经过k个哈希函数处理，查看得到的位置是否都为1，如果有至少一个位置不为1，则证明这个数据不在数据集中，反之，这个数据很大可能在这个数据集中（因为存在误差）
布隆过滤器的误差
- 误差可能存在
  - 一个数据并未参数构建布隆过滤器，但是它的计算结果可能会“已经存在”，比如当只用1个哈希函数或者二进制数很短时，可能别的数据的结果刚好与整个数据相同，于是这个数据也被当做存在了
  - 已有的数据一定显示已有，未有数据可能”已有“
- 误差计算
- 误差率统计

布隆过滤器的实现

由Go和redis组合实现一个布隆过滤器
底层数据结构
- redis中衍生数据类型很适合作为实现布隆过滤器的底层数据类型
实现方法
- 布隆过滤器的构造参数：插入数量m，哈希函数个数k
- 布隆过滤器的操作函数：Add，Contains，Probability
- 封装redis位图操作
- 总体代码
- 样例测试

泡芙萝莉酱

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Java学习 - 布隆过滤器

布隆过滤器作用占用很少的空间和使用较少的时间判断一个小数据集是否是一个大数据集的子集布隆过滤器参数n：一个很长的二进制，n位m：需要放入的数据数量，m个k：k个哈希函数布隆过滤器构建过程初始化：原始二进制数字中的每一位都置为0一个数据经过1个哈希函数会得到一个位置，该位置置1一个数据经过k个哈希函数处理会，在原理二进制中会有k个位置被置1所有数据重复以上两步，即可构建出对于这个数据集的布隆过滤器布隆过滤器判断有无。
复制链接

扫一扫

专栏目录

泡芙萝莉酱 CSDN认证博客专家 CSDN认证企业博客

码龄74天

131: 原创

7297: 周排名

9380: 总排名

11万+: 访问

: 等级

4460: 积分

2027: 粉丝

2516: 获赞

31: 评论

1917: 收藏

私信

关注

热门文章

分类专栏

Java 104篇
JavaScript 13篇
MySQL 23篇
Golang 12篇
python 2篇

最新评论

Java 入门练习：26 - 30
4.0啊: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文!
Java 入门练习：16 - 20
小明: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文!
javascript学习 - 面向对象
sosogod: 这篇文章对“对象”的概念进行了简明而详细的解释，非常适合初学者理解面向对象编程中的基本概念。是一篇很好的面向对象编程入门文章。它以简洁明了的语言和生动的示例，深入浅出地解释了对象的概念、定义、使用方法和操作技巧。对于初学者来说，这篇文章具有很高的参考价值。
求职面试 - MyBatis 面试知识点
时时三省: 博主的这篇文章真是让我受益匪浅！通过阅读，我对tessy单元测试有了全新的认识，感受到了博主深厚的专业知识和丰富的经验。文章中的细节描写非常到位，让我对这个主题有了更深入的理解。期待博主能够持续分享更多这样有价值的文章，也希望能够得到博主的指导，一起共同进步。非常感谢博主的无私分享和支持！
求职面试 - Spring 面试知识点
小明: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文!

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。