最近面临这样的场景:
2亿+数据需要调用后端服务A,业务需要1min处理完成,那么A服务承载的tps达到惊人的300w......必须想办法降低tps。
那么方案来了:1、把时间窗口拉长 2、降低待处理数据量。
拉长时间业务肯定是接受不了的,但是按照以往的经验,这部分数据并不全部需要处理,可能仅有一半真正需要调用A服务,所以我们可以把1亿数据给过滤掉。
这里我们维护一个布隆过滤器来进行数据的过滤。
1. 布隆过滤器的概念(百科)
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。
2. 布隆过滤器应用场景
deny list
数据判重
预过滤
3. 原理
核心是一个长度为m的bit array和k个hash方法。
如下图,我们将一个newsid通过3个hash方法映射到长为8的数组上。
判断newsid是否存在,则看数组中3个位置是否都取到1:全为1,newsid可能存在于集合中;不全为1,newsid一定不存在于集合中。