理解布隆过滤器

最新推荐文章于 2024-07-07 16:23:07 发布

yida&yueda

最新推荐文章于 2024-07-07 16:23:07 发布

阅读量880

点赞数 1

分类专栏：大数据数据结构文章标签：缓存 java redis

本文链接：https://blog.csdn.net/qq_40585384/article/details/122400695

版权

大数据同时被 2 个专栏收录

50 篇文章 5 订阅

订阅专栏

数据结构

3 篇文章 0 订阅

订阅专栏

布隆过滤器

简介

客户端：这个key存在吗？

服务器：不存在/不知道

本质上，布隆过滤器是一种数据结构，是一种比较巧妙的概率型数据结构。它的特点是高效地插入和查询。但我们要检查一个key是否在某个结构中存在时，通过使用布隆过滤器，我们可以快速了解到「这个key一定不存在或者可能存在」。相比于以前学习过的List、Set、Map这些数据结构，它更加高效、占用的空间也越少，但是它返回的结果是概率性的，是不确切的。

应用场景

缓存穿透

为了提高访问效率，我们会将一些数据放在Redis缓存中。当进行数据查询时，可以先从缓存中获取数据，无需读取数据库。这样可以有效地提升性能。
在数据查询时，首先要判断缓存中是否有数据，如果有数据，就直接从缓存中获取数据。
但如果没有数据，就需要从数据库中获取数据，然后放入缓存。如果大量访问都无法命中缓存，会造成数据库要扛较大压力，从而导致数据库崩溃。而使用布隆过滤器，预先把数据库中的数据加入到布隆过滤器中，当访问不存在的缓存时，可以迅速返回避免缓存或者DB crash。

判断某个数据是否在海量数据中存在

HBase中存储着非常海量数据，要判断某个ROWKEYS、或者某个列是否存在，使用布隆过滤器，可以快速获取某个数据是否存在。但有一定的误判率。但如果某个key不存在，一定是准确的。

HashMap的问题

要判断某个元素是否存在其实用HashMap效率是非常高的。HashMap通过把值映射为HashMap的Key，这种方式可以实现O(1)常数级时间复杂度。
但是，如果存储的数据量非常大的时候（例如：上亿的数据），HashMap将会耗费非常大的内存大小。而且也根本无法一次性将海量的数据读进内存。

理解布隆过滤器

在这里插入图片描述

布隆过滤器是一个bit数组或者称为一个bit二进制向量
这个数组中的元素存的要么是0、要么是1
k个hash函数都是彼此独立的，并将每个hash函数计算后的结果对数组的长度m取模，并将对一个的bit设置为1（蓝色单元格）
我们将每个key都按照这种方式设置单元格，就是「布隆过滤器」

根据布隆过滤器查询元素

假设输入一个key，我们使用之前的k个hash函数求哈希，得到k个值
判断这k个值是否都为蓝色，如果有一个不是蓝色，那么这个key一定不存在
如果都有蓝色，那么key是可能存在（布隆过滤器会存在误判）
因为如果输入对象很多，而集合比较小的情况，会导致集合中大多位置都会被描蓝，那么检查某个key时候为蓝色时，刚好某个位置正好被设置为蓝色了，此时，会错误认为该key在集合中

yida&yueda

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
理解布隆过滤器

布隆过滤器是一种数据结构，是一种比较巧妙的概率型数据结构。它的特点是高效地插入和查询。但我们要检查一个key是否在某个结构中存在时，通过使用布隆过滤器，我们可以快速了解到「这个key一定不存在或者可能存在」。
复制链接

扫一扫