数据结构------布隆过滤器的基本操作

布隆过滤器是一种空间效率极高的概率型数据结构,用于判断一个元素是否在一个集合中。它通过使用位图和多个哈希函数减少误报率,但可能会有假阳性。文章介绍了布隆过滤器的基本操作,包括插入、查找和初始化,以及为何不支持删除操作。
摘要由CSDN通过智能技术生成

       下文中用到位图的相关知识和代码见博客:位图的基本操作      

        布隆过滤器主要用于在一个字符串集合中查找某个字符串是否存在。要在集合中查找,首先要将该字符串集合储存起来。那么该如何存储呢?

        如果用链表,树等结构进行存储,当集合中的元素越来越多时,所占的空间就越来越大。查找的效率也会越来越低。如果用哈希表来存储,首先要根据字符串哈希函数计算字符串对应的数值,将该数值通过除留余数法等哈希函数计算出下标值,然后将字符串整体存放在哈希表的该下标处中。此时,随着字符串数量的增多,占用的内存也会越来越大。同时发生哈希冲突的概率也会越来越大。在哈希表中解决哈希冲突的方法是通过闭散列(线性探测)或开散列(哈希桶)的方法来解决。但是随着元素个数的增多,查找效率会降低,因此就需要控制存放在哈希表中的元素个数了,此时内存的空间利用率就会降低。

        所以,通过变形的哈希表来解决该问题:

        首先考虑上述的内存占用问题。如果将一个字符串用一个比特位来表示,此时就会大大节省内存空间。这里就需要使用到位图的结构来进行存储,而且位图适用于不重复的数据集合,此时空间利用率特别高。

        其次,要使各字符串对应的下标尽可能的不重复进而提高空间利用率。所以就要解决字符串的冲突问题。在计算字符串的存储下标时,经历了两个步骤:

(1)首先根据字符串哈希函数计算字符串对应的数值。

(2)将上述的数值通过除留余数法等哈希函数计算下标值。

        随着字符串数量的增多,在上述两个过程中的任一步计算的数值相同的可能性就越大。因此,发生冲突的概率也会越来越大。因为:

        上述由(1)计算的数值如果相同,则由(2)计算的下标值也一定相同。如果(1)计算的数值不相同,则由(2)计算的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值