布隆过滤器的原理和实现

最新推荐文章于 2024-05-21 15:52:03 发布

Bushoter

最新推荐文章于 2024-05-21 15:52:03 发布

阅读量542

点赞数 1

分类专栏： Linux架构文章标签： c++ c语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xinyue_Lu/article/details/109563188

版权

布隆过滤器 VS hashmap

布隆过滤器（Bloom Hash）是一种巧妙的概率型数据结构（probabilistic datastructure），特点是高效地插入和查询。

和传统的数据结构相比，布隆过滤器占用空间小且高效，但有一定的概率性，结果存在误差。

hashmap的元素超过表的一半需要扩容(hashmap：hash散列+链表)，当发生的hash冲突太严重，hashmap退化为链表

在STL中，map（rbtree），unordered_map（hash）

因为map和hashmap都比较占用内存，他们都存储了key，如url则非常占用空间；hash的存储效率只有50%，为了避免高碰撞一般hash表存到一半就会翻倍，很费内存。

布隆过滤器(hash)：在哈希基础上扩展

应用场景

判断一个字符串是否存在
记录的数据量很大且要求查询效率高
用在允许误差的场景

原理

布隆过滤器是一个bit向量（数组），长度决定了占了多少内存，但增加key的时候不会耗内存（因为它不存储key）.比如用4字节长度的bit向量，则有0~4294967295

当一个元素被加入集合时，通过K个hash函数把这个元素映射成一个bit向量中的K个点，把他们置1，检索时如果对应位都为1就可以判断元素很可能在集合中。因为每一位可能和多个元素相联系，所以布隆过滤器算法中不能够删除元素。

采用多个hash函数做映射得到多个位置索引并置1，为的是解决冲突问题

内部参数

向量表长度
hash函数的个数
期望的误差
最多放多少个元素

bit向量的长度m和元素个数n都会影响查询的误判率p：m增大，n减小，都会降低p

设计布隆过滤器需要根据n、p先

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器的原理和实现

1. 布隆过滤器 VS hashmap布隆过滤器是一种巧妙的概率型数据结构（probabilistic datastructure），特点是高效地插入和查询。和传统的数据结构相比，布隆过滤器占用空间小且高效，但有一定的概率性，结果存在误差。hashmap的元素超过表的一半需要扩容hash冲突：太严重，退化为链表2. 应用场景判断一个字符串是否存在，记录的数据量很大且要求查询效率高的情况下会采用布隆过滤器。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。