hbase之布隆过滤器

最新推荐文章于 2024-07-24 14:07:28 发布

置顶

波逐流

最新推荐文章于 2024-07-24 14:07:28 发布

阅读量9.6k

点赞数 16

分类专栏： hbase 文章标签：布隆过滤器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38180223/article/details/80922114

版权

一、布隆过滤器

布隆过滤器（Bloom Filter）是1970由布隆提出的。通过一个很长的二进制向量于一系列随即哈希函数生成。下面我就将通过以下小节来介绍布隆过滤器：

1、原因与结构解析

2、数学公式

1.1 原因与结构解析

首先，我们应当知道，hash是内存中使用的经典数据结构。

当我们需要判读一个元素是否在一个集合当中时，我们可以用哈希表来判断。在集合较小的情况下，hash是可行而且高效的。

然而数据量以PT计的大数据场景中，很多时候，hash便力有未逮。这是因为在海量数据下hash要占据巨额内存空间，这远远超过我们能够提供的内存大小。

例如在黑名单过滤当中，我们有100亿的网站黑名单url需要过滤，假设一个url是64bytes。如果我们用hash表来做，那么我们至少需要6400亿字节即640G的内存空间（实际所需空间还远大于此），空间消耗巨大，必须要多个服务器来同时分摊内存。

然而我们是否能用更加精简的结构来做这件事呢？布隆过滤器就是这样一个高度节省空间的结构，并且其时间也远超一般算法，但是布隆过滤器存在一定的失误率，例如在网页URL黑名单过滤中，布隆过滤器绝不会将黑名单中网页查错，但是有可能将正常的网页URL判定为黑名单当中的，它的失误可以说是宁可错杀，不可放过。不过布隆过滤器的失误率可以调节，下面我们会详细介绍。

布隆过滤器实际就是一种集合。假设我们有一个数组，它的长度为L，从0-（L-1）位置上，存储的不是一个字符串或者整数，而是一个bit，这意味它的取值只能为0或1.

例如我们实现如下的一个数组：

int[] array = new int[1000];

该数组中有1000个int类型的元素，而每一个int由有4个byte组成，一个byte又由8个bit组成，所以一个int就由32个bit所组成。

所以我们申请含1000整数类型的数组，它就包含32000个bit位。

但是我们如果想将第20001个bit位描黑，将其改为1，我们需要怎样做呢。

首先我们的需要定位，这第20001个bit位于哪个整数，接着我们需要定位该bit位于该整数的第几个bit位。

最低0.47元/天解锁文章

关注

16
点赞
踩
46

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

波逐流 CSDN认证博客专家 CSDN认证企业博客

码龄7年

37: 原创

74万+: 周排名

159万+: 总排名

9万+: 访问

: 等级

1021: 积分

40: 粉丝

64: 获赞

9: 评论

240: 收藏

私信

关注

热门文章

分类专栏

golang 1篇
源码解析 1篇
hbase 3篇
数据结构 4篇
操作系统 4篇
Java 18篇
数据 1篇
数据库 2篇
算法 3篇
面经 1篇

最新评论

golang源码解析之chan
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于想要深入了解golang源码中的chan的读者来说非常有帮助。我认为下一篇博客可以围绕golang中的协程和调度器进行深入探讨，从而更好地理解chan的实现原理。希望您能继续分享关于golang源码解析的精彩内容，让更多的读者受益！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
哈希（哈希表与哈希函数）
青冬: 请问下这个生成独立hash的算法，是指将高8位和低8位再次进行hash么？
hbase之布隆过滤器
青冬: k = ln2 * m/k #m为数组长度 n为样本数量 k向上取整应该是ln2 * m/n
hbase之布隆过滤器
青冬: 我算出来为：>>> n=100000000 >>> p=0.00001 >>> m=-n*math.log(p)/(math.log(2)**2) >>> m 2396264594.34186 为何相差这么多？
HBase之rowkey设计原则和方法
plusw00: 加个随机数的话，数据就有可能被存储到多个节点上，这样查询的时候多个节点来查询。这里更加快速是因为这样的话你在集群中多个节点中查询数据，肯定比在某几个节点上查询来得快。

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。