布隆过滤器介绍

最新推荐文章于 2024-07-24 20:25:39 发布

古德jiò

最新推荐文章于 2024-07-24 20:25:39 发布

阅读量109

点赞数 1

分类专栏： C++ 文章标签：哈希算法散列表算法

本文链接：https://blog.csdn.net/asdaqqwc/article/details/118767524

版权

C++ 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

海量数据去重问题

1、现在使用word文档时，word如何判断某个单词是否拼写正确？
2、网络爬虫程序，怎么让它不去爬相同的URL页面？
3、垃圾邮件（短信）过滤算法如何设计？
4、公安办案时，如何判断某嫌疑人是否在网逃名单中？

布隆过滤器

定义：布隆过滤器是一种概率型数据结构，它的特点是高效的插入和查询，能明确告知某个字符一定不存在或者可能存在
组成：位图（bit数组）+ n个hash函数
在这里插入图片描述
原理：当一个元素加入位图时，通过k个hash函数将这个元素映射到位图的k个点，并把它们置为1；当检索时，在通过k个hash函数运算检测位图的k个点是否都为1；如果有不为1的点，那么认为不存在，如果全部为1，则可能存在（存在误差）；

在这里插入图片描述

优点：比传统的查询结构（hash，set，map等）更加高效，占用空间更小
缺点：
1、其返回的结构是概率性的，也就是说结果存在误差，但这个误差是可控的；
2、同时不支持删除操作，在位图中每个槽位只有两种状态（0或者1），一个槽位被设置为1状态，但不明确它被设置了多少次，也就是不知道被多少个哈希函数映射以及被哪个哈希函数映射过。因此不能进行删除操作

实际应用：
布隆过滤器如何使用？
要选择多少个hash函数，要分配多少内存。
如何控制假阳率（及错误判断数据存在的概率）？
解决上面问题，用以下公式：
n：布隆过滤器中元素的个数(如上图的str1与str2就是两个元素)；
p：假阳率(容错率)，在0~1之间；
m：位图所占空间；
k：hash函数个数；
n=ceil(m/k(-k/(log(1-exp(logp)/k))))
p=pow(1-exp(-k/(m/n)),k)
m=ceil((n*log§)/log(1/pow(2,log(2))))
k=round((m/n)*log(2))
自己固定两个值（一般是n，p），然后算出另外两个值，可以通过以下网址来计算：
链接: https://hur.st/bloomfilter.

应用场景

缓存穿透问题解决
在这里插入图片描述
面试回答顺序：
1.首先解释缓存（redis）：redis存在是为了减轻数据库（mysql）的压力，在服务器（server）与数据库之间缓存（redis）用来存储热点数据（经常访问的数据）。
2、介绍缓存穿透是什么：当server访问数据时，首先会从redis中找，如果没有再去数据库中找数据，找没找到都会返回。所以当数据不存在时，所有压力都会压在数据库中，缓存没有分担压力。（数据请求步骤如图中2所示）
3、存在问题：黑客故意利用漏洞，伪造数据攻击或者内部业务bug造成大量重复请求不存在的数据，导致数据库压力过大而崩溃。
4、解决方案如图中3所示

古德jiò

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器介绍

海量数据去重背景问题1、现在使用word文档时，word如何判断某个单词是否拼写正确？2、网络爬虫程序，怎么让它不去爬相同的URL页面？3、垃圾邮件（短信）过滤算法如何设计？4、公安办案时，如何判断某嫌疑人是否在网逃名单中？5、缓存穿透问题如何解决？解决方案1优化：给key设置一个缓存过期，如60ms，如60ms后释放掉该键值。set和map底层用的是红黑树，区别在于set不存储val字段；增删改查的时间复杂度是o（logn）优点：存储效率高，访问速度高效；缺点：对于数据量大且查询
复制链接

扫一扫

专栏目录