布隆过滤器【1】

布隆过滤器

 

     最近一直在看美剧《犯罪心理》,剧中的BAU小组每次都要从茫茫人海中找到真正的凶手,这跟我们要在庞大的数据库中找到一个数据的感觉很相似。

     就拿最简单的来说,全世界70多亿人口,每个人的指纹都是独一无二的,当把每个人的指纹信息整合起来,必定是一个庞大的数据库。假设现在从现场采集到一枚指纹,我们可以用电脑通过对这枚指纹的几个“特征点”进行扫描,然后用“特征点”的信息来筛选数据库中的指纹信息,可以这样减轻繁琐的对比工作,随着特征点数量的增加,其检索的正确率也会大大提高。这样的检索方式不仅可以减少信息的存储空间,也提高了信息检索的速度。布隆过滤器也和这样的过程极为相似。

     布隆过滤器,简单来说,就是位数组+K个哈希函数,那么它就同时继承了位图和哈希表两者的优点,不仅节省空间,而且查找快速,缺点就是,存在一定的误判率。

     继续用指纹识别这个例子来说明布隆过滤器的原理。假设,我们存储了全国大学生的指纹信息,那么首先,我们需要建立一个很长的二进制向量,即一个位数组,把所有的位都设为0。然后使用K个哈希函数对指纹信息进行计算存储,得到特征点S1,S2,S3,...Sk,再把这些特征点映射到位数组中的K个位置,把这些位置上的0置为1,当我们把所有人的指纹信息都通过这样的方式处理过之后,一个针对指纹信息的布隆过滤器就做好了。接下来,让我们看看这个布隆过滤器是如何检测一个未知指纹X是否在数据库中的吧!首先,用相同的K个哈希函数指纹X进行计算,同样得到K个特征点分别为X1,X2,...Xk,再将这K个数映射到布隆过滤器中的K个位置,如果指纹X在数据库中,那么其映射的K个位置上的位一定是1。那么任何存在于这个指纹库中的指纹都能被检查出来。

 

     这样的例子还是不够具体,那么就举一个简单的实例,比如说有集合M=2456327},现在我们要用布隆过滤器来判断这个集合中是否存在重复的数字,首先,我们建立一个位数组BitSet[],根据集合元素的数值,位数组设为8位,并使其各位都为0,如下图所示:

 

BitSet[0]

BitSet[1]

BitSet[2]

BitSet[3]

BitSet[4]

BitSet[5]

BitSet[6]

BitSet[7]

0

0

0

0

0

0

0

0

 

接下来使用一个哈希函数来对集合M进行存储,H(k)=k,即,2对应位数组第2BitSet[1]4对应第四位BitSet[3]……在对应位上置1,其余位上的仍为0

如下图所示:

 

位数组

0

1

1

1

1

1

1

0

  M

 

2

3

4

5

6

7

 

 

通过计算发现,当集合M中的第6个元素“2”出现时,其对应的位数组上的BitSet[1]=1,由此可以判断,元素“2”重复。

由这个简单的例子应该可以大概了解布隆过滤器的基本原理。

    【不知道我自己的理解对不对啊,请多多指教啦!】

     明天写一个揪出垃圾邮件的简单布隆过滤器,到时候再把代码PO上来和小伙伴们交流吧~

<!--EndFragment-->
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
Redisson布隆过滤器是基于Redis实现的Java分布式布隆过滤器。它可以在多个JVM节点或其他进程中通过相同的KEY获取到布隆过滤器布隆过滤器的主要功能是判断某个元素是否存在于容器中,因此非常适合解决缓存穿透问题和检查数据是否重复的场景。使用Redisson布隆过滤器时,需要单独开一个定时任务来初始化布隆过滤器的数据,并在删除或更新数据时重新刷新布隆过滤器。虽然使用布隆过滤器可能稍显麻烦,但可以使用Redis的Set类型来替代。\[1\]\[2\] 在代码示例中,可以看到使用Redisson布隆过滤器的示例代码。首先通过redisson.getBloomFilter方法获取布隆过滤器实例,然后使用tryInit方法初始化布隆过滤器的容量和误差率。接下来可以使用add方法向布隆过滤器中添加元素,使用contains方法判断元素是否存在于布隆过滤器中。\[2\]\[3\] 总结来说,Redisson布隆过滤器是一种解决缓存穿透和检查数据重复的有效工具,但在使用时需要注意初始化和刷新布隆过滤器的操作。 #### 引用[.reference_title] - *1* *2* *3* [从头开始学Redisson--------布隆过滤器](https://blog.csdn.net/yanluandai1985/article/details/104848454)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值