数据结构------布隆过滤器的基本操作

最新推荐文章于 2024-07-24 14:07:28 发布

sandmm112

最新推荐文章于 2024-07-24 14:07:28 发布

阅读量1.9k

点赞数

分类专栏： C 数据结构文章标签：布隆过滤器插入查找销毁

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sandmm112/article/details/80459273

版权

布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它通过使用位图和多个哈希函数减少误报率，但可能会有假阳性。文章介绍了布隆过滤器的基本操作，包括插入、查找和初始化，以及为何不支持删除操作。

摘要由CSDN通过智能技术生成

下文中用到位图的相关知识和代码见博客：位图的基本操作

布隆过滤器主要用于在一个字符串集合中查找某个字符串是否存在。要在集合中查找，首先要将该字符串集合储存起来。那么该如何存储呢？

如果用链表，树等结构进行存储，当集合中的元素越来越多时，所占的空间就越来越大。查找的效率也会越来越低。如果用哈希表来存储，首先要根据字符串哈希函数计算字符串对应的数值，将该数值通过除留余数法等哈希函数计算出下标值，然后将字符串整体存放在哈希表的该下标处中。此时，随着字符串数量的增多，占用的内存也会越来越大。同时发生哈希冲突的概率也会越来越大。在哈希表中解决哈希冲突的方法是通过闭散列（线性探测）或开散列（哈希桶）的方法来解决。但是随着元素个数的增多，查找效率会降低，因此就需要控制存放在哈希表中的元素个数了，此时内存的空间利用率就会降低。

所以，通过变形的哈希表来解决该问题：

首先考虑上述的内存占用问题。如果将一个字符串用一个比特位来表示，此时就会大大节省内存空间。这里就需要使用到位图的结构来进行存储，而且位图适用于不重复的数据集合，此时空间利用率特别高。

其次，要使各字符串对应的下标尽可能的不重复进而提高空间利用率。所以就要解决字符串的冲突问题。在计算字符串的存储下标时，经历了两个步骤：

（1）首先根据字符串哈希函数计算字符串对应的数值。

（2）将上述的数值通过除留余数法等哈希函数计算下标值。

随着字符串数量的增多，在上述两个过程中的任一步计算的数值相同的可能性就越大。因此，发生冲突的概率也会越来越大。因为：

上述由（1）计算的数值如果相同，则由（2）计算的下标值也一定相同。如果（1）计算的数值不相同，则由（2）计算的

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据结构------布隆过滤器的基本操作

下文中用到位图的相关知识和代码见博客：位图的基本操作布隆过滤器主要用于在一个字符串集合中查找某个字符串是否存在。要在集合中查找，首先要将该字符串集合储存起来。那么该如何存储呢？如果用链表，树等结构进行存储，当集合中的元素越来越多时，所占的空间就越来越大。查找的效率也会越来越低。如果用哈希表来存储，首先要根据字符串哈希函数计算字符串对应的数值...
复制链接

扫一扫

专栏目录

sandmm112 CSDN认证博客专家 CSDN认证企业博客

码龄7年

97: 原创

17万+: 周排名

138万+: 总排名

27万+: 访问

: 等级

3020: 积分

112: 粉丝

258: 获赞

15: 评论

994: 收藏

私信

关注

热门文章

分类专栏

Linux 27篇
游戏/小项目 6篇
C 53篇
数据结构 23篇
个人感想 1篇
计算机网络 21篇
C++ 1篇

最新评论

IP协议------网段划分
㓅云: 写的非常好！
数据结构-------二叉树的基本操作（递归实现）
无轻筱轺: 您好CreateNode没有写
IP地址数量限制的解决方案------NAT技术
　　　　　　　　　　　　　　　: 有一个疑问，每个内网主机的 ip:port 发出的请求都会转为公网的 ip:port。然而公网的 ip:port 数量是有限的，所以不管有多少内网主机，总的 port 数是有限制的，这是不是 iPv4 的上限？
数据结构------基于线性探测解决哈希冲突的哈希表
weixin_38831163: 注释好评~楼主upup
进程间通信------信号量
十方铺子: 写的真的好。不过我遇到的问题是，第一次成功运行后，在未进行删除信号量集操作的情况下，再次运行，内容可以打印。但无序。P/V操作一直错误。不过解决方法和您的一样。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。