海量数据去重、HASH、布隆过滤器介绍

13 篇文章 3 订阅
5 篇文章 0 订阅

一、背景

大家伙面试时或许会遇到海量数据去重的问题,这就涉及到布隆过滤器的使用了,本篇文章将首先从哈希表说起,进而去介绍布隆过滤器。

二、hash作用及冲突处理

哈希表大家一定都不陌生,咱们c++中的unordered_map底层数据结构就是哈希表,那么hash表相比其他数据结构的优势在哪呢?

这里我们提出一个具体需求,从海量数据中查询某个字符串是否存在?
不使用哈希表之前我们可以借助有序数组、平衡二叉搜索树(AVL树\红黑树)、平衡多路搜索树(B\B+树)、多层级有序链表(跳表),再结合具体算法如二分搜索遍历即可。

而哈希表作为一种根据key直接计算其对应位置的数据结构Hash(key)=addr,我们在查询某个元素时,可以直接计算出其所在地址。然而,hash 函数可能会把两个或两个以上的不同 key 映射到同一地址,这
种情况称之为冲突(或者 hash 碰撞),冲突发生可能性大小与哈希表的负载因子(数组存储元素的个数 / 数据长度)有关,负载因子越小,冲突越小,负载因子越大,冲突越大。

常见的冲突处理方法有以下几种:
链表法:将冲突元素用链表连起来,但是可能出现一种极端情况,当冲突元素过多时,冲突链表就越长,那么哈希表查询效率将大大降低,这个时候可以将这个链表转换为红黑树。
开放寻址法:将所有的元素都存放在哈希表的数组中,不使用额外的数据结构,一般使用线性探查的思路解决冲突:

  1. 当插入新元素的时,使用哈希函数在哈希表中定位元素位置;
  2. 检查数组中该槽位索引是否存在元素。如果该槽位为空,则插⼊,否则3;
  3. 在 2 检测的槽位索引上加一定步长接着检查2; 加⼀定步长分为以下几种:
  4. i+1,i+2,i+3,i+4, … ,i+n
  5. i-12 ,i+22 ,i-32 ,1+42, … 这两种都会导致同类 hash 聚集,也就是key值近似它的hash值也近似,那么它的数组槽位也靠近,形成 hash 聚集;第一种同类聚集冲突在前,第二种只是将聚集冲突延后。
    双重哈希法:主要用来解决上面出现hash聚集现象,该方法具体原理大伙可以看看这个链接:https://www.cnblogs.com/organic/p/6283476.htm

三、布隆过滤器

3.1 简要介绍

在前面大致介绍了哈希表的作用及存在的不足,这里我们正式推出布隆过滤器。

首先还是简单介绍下哈:布隆过滤器是一个比特向量或者比特数组,它本质上是一种概率型数据结构,用来查找一个元素是否在集合中,支持高效插入和查询某条记录,能确定某个字符串一定不存在或者可能存在;布隆过滤器不存储具体数据,所以占用空间小,查询结果存在误差,但是误差可控,同时不支持删除操作。

3.2 原理

布隆过滤器由一个位图(bitmap)和k个哈希函数构成,当一个元素加入位图时,通过 k 个 hash 函数将这个元素映射到位图的 k 个点,并把它们置为 1;
当检索时,再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那么认为该 key 不存在;如果全部为 1,则可能存在。

举个栗子,对于两个字符串str1和str2,布隆过滤器使用3个哈希函数,可以看到图中计算后的存储位置,在下标为7的地方发生了重叠,由于在位图中每个槽位只有两种状态(0 或者 1),尽管一个槽位被设置为 1 状态,但我们不确定它被设置了多少次,即,我们能确定某个字符串一定不存在,或者可能存在。
在这里插入图片描述
那么我们在实际应用中,对布隆过滤器中的哈希函数怎么选择呢?位图大小怎么选择?误差怎么控制?

这里给出下面的公式:

n – 预期布隆过滤器中元素的个数,如上图 只有str1和str2 两个元素,那么 n=2
p – 假阳率,在0-1之间
m – 位图所占空间
k – hash函数的个数
公式如下:
n = ceil(m / (-k / log(1 - exp(log( p ) / k))))
p = pow(1 - exp( -k / (m / n)), k)
m = ceil((n * log( p )) / log(1 / pow(2, log(2))));
k = round((m / n) * log(2));

在实际使用布隆过滤器时,首先需要确定 n 和 p,通过上面的运算得出 m 和 k;通常可以在下面这个网站上选出合适的值。
https://hur.st/bloomfilter

当然,实际使用hash函数并不是要准备指定数量的函数,而是选择一个 hash 函数,通过给 hash 传递不同的种子偏移值,采用线性探寻的方式构造多个 hash函数。

#define MIX_UINT64(v) ((uint32_t)((v>>32)^(v)))
uint64_t hash1 = MurmurHash2_x64(key, len, Seed);
uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1));
for (i = 0; i < k; i++) // k 是hash函数的个数
{
	Pos[i] = (hash1 + i*hash2) % m; // m 是位图的⼤⼩
}

3.3 应用场景介绍

布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允许判断存在时有误差的情况,常见处理场景:① 缓存穿透的解决;② 热 key 限流;
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿杰的小鱼塘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值