海量数据去重的Hash与BloomFilter，bitmap

最新推荐文章于 2023-04-26 19:59:42 发布

花开花落为谁愁

最新推荐文章于 2023-04-26 19:59:42 发布

阅读量296

点赞数 1

分类专栏： gyw服务器架构文章标签：哈希算法算法

本文链接：https://blog.csdn.net/Ge_yangwen/article/details/127740621

版权

gyw服务器架构专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习笔记。部分转载零声教育：
https://ke.qq.com/cgi-bin/agency?aid=75950#category=-1&tab=1

总体知识脉络

在这里插入图片描述

背景

使用 word 文档时，word 如何判断某个单词是否拼写正确？
网络爬虫程序，怎么让它不去爬相同的 url 页面？
垃圾邮件过滤算法如何设计？
公安办案时，如何判断某嫌疑人是否在网逃名单中？
缓存穿透问题如何解决？

需求

从海量数据中查询某个字符串是否存在？

平衡二叉树（AVL）

中序遍历是有序的。（平衡二叉树定义：任意节点的子树的高度差都小于等于 1）

在这里插入图片描述

二分查找的办法需要：

1. 存储具体的元素
2. 比较字符串

在这里插入图片描述

散列表

根据 key 计算 key 在表中的位置的数据结构；是 key 和其所在存储地址的映射关系；
注意：散列表的节点中 kv 是存储在一起的；

散列表的办法需要：

1. 存储具体的元素

struct node {
	void *key;
	void *val;
	struct node *next;
};

hash 函数

映射函数 Hash(key)=addr ；hash 函数可能会把两个或两个以上的不同 key 映射到同一地址，这种情况称之为冲突（或者 hash 碰撞）；
计算速度快（把 * ÷ %等操作转化为位运算来计算）强随机分布（等概率、均匀地分布在整个地址空间）murmurhash1，murmurhash2，murmurhash3，siphash（redis6.0当中使⽤，rust等大多数语言选用的hash算法来实现hashmap），cityhash 都具备强随机分布性；测试地址如下： https://github.com/aappleby/smhasher . siphash 主要解决字符串接近的强随机分布性 ;

负载因子

数组存储元素的个数 / 数据长度；用来形容散列表的存储密度；负载因子越小，冲突越小，负载因子越大，冲突越大；

map中的  负载因子≈0.6
Redis中的  负载因子≈1

冲突处理

链表法:

引用链表来处理哈希冲突；也就是将冲突元素用链表链接起来；这也是常用的处理冲突的⽅式；但是可能出现一种极端情况，冲突元素比较多，该冲突链表过长，这个时候可以将这个链表转换为红黑树或者AVL树；由原来链表时间复杂度O(n) 转换为红黑树时间复杂度 在这里插入图片描述
；那么判断该链表过长的依据是多少？可以采⽤超过 **256（经验值）**个节点的时候将链表结构转换为红黑树结构；

开放寻址法：

将所有的元素都存放在哈希表的数组中，不使用额外的数据结构；一般使用线性探查的思路解决；

当插入新元素的时，使用哈希函数在哈希表中定位元素位置；
检查数组中该槽位索引是否存在元素。如果该槽位为空，则插⼊，否则3；
在 2 检测的槽位索引上加一定步长接着检查2；加⼀定步长分为以下几种：
1. i+1,i+2,i+3,i+4, … ,i+n

1.. 在.net HashTable类的hash函数Hk定义如下：
Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) +1) %(hashsize – 1)))] % hashsize
2.. 在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))) 与hashsize互为素数（两数互为素数表示两者没有共同的质因⼦）；
执⾏了 hashsize 次探查后，哈希表中的每⼀个位置都有且只有⼀次被访问到，也就是说，对于给定的 key，对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj；

具体原理：https://www.cnblogs.com/organic/p/6283476.htm

布隆过滤器

背景

不比较具体的key,如字符串，不存储具体的元素。帮助我们处理海量的数据

布隆过滤器是一种概率型数据结构，它的特点是高效地插入和查询，能确定某个字符串一定不存在或者可能存在；
布隆过滤器不存储具体数据，所以占用空间小，查询结果存在误差，但是误差可控，同时不支持删除操作； （如果硬要删除，可以准备两个布隆过滤器（一个记录添加的，一个记录删除的查的时候对比两个布隆过滤器））

构成

位图（BIT 数组）+ n 个 hash 函数

在这里插入图片描述

原理

当一个元素加入位图时，通过 k 个 hash 函数将这个元素映射到位图的 k 个点，并把它们置为 1；当检索时，再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1；如果有不为 1 的点，那么认为该 key 不存在；如果全部为 1，则可能存在；
为什么不支持删除操作？
在位图中每个槽位只有两种状态（0 或者 1），一个槽位被设置为 1 状态，但不确定它被设置了多少次；也就是不知道被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映射而来；
在这里插入图片描述

应用场景

布隆过滤器通常用于判断某个 key 一定不存在的场景，同时允许判断存在时有误差的情况；
常见处理场景：① 缓存穿透的解决；② 热 key 限流；
使用步骤：

统计key是否是热key
1.一定时间内访问该key的次数。
2.次数达到阈值，放入布隆过滤器
3.下次访问key是先访问布隆过滤器（判断是否在热key中）
4.key不在过滤器中直接访问数据库
5.key在过滤器中有概率说明它是热点数据

在这里插入图片描述
mysql中的数据更新了的话，布隆过滤器也要更新。

应用分析

在实际应用中，该选择多少个 hash 函数？要分配多少空间的位图？预期存储多少元素？如何控制
误差？
公式如下：

n -- 预期布隆过滤器中元素的个数，如上图 只有str1和str2 两个元素 那么 n=2
p -- 假阳率，在0-1之间 0.000000
m -- 位图所占空间
k -- hash函数的个数
公式如下：
n = ceil(m / (-k / log(1 - exp(log(p) / k))))
p = pow(1 - exp(-k / (m / n)), k)
m = ceil((n * log(p)) / log(1 / pow(2, log(2))));
k = round((m / n) * log(2));

变量关系

假定4个初始值：（一般是先确定n和p，在网站上算出m k.）
n = 4000
p = 0.000000001
m = 172532
k = 30
在这里插入图片描述

面试百度 hash 函数实现过程当中为什么会出现 i*31?

i * 31 = i * (32-1) = i * (1<<5 -1) = i << 5 - i；
31 质数，hash 随机分布性是最好的； 如：17,31,101

确定 n 和 p

在实际使用布隆过滤器时，首先需要确定 n 和 p，通过上面的运算得出 m 和 k；通常可以在下面
这个网站上选出合适的值；
https://hur.st/bloomfilter

选择 hash 函数

选择一个 hash 函数，通过给 hash 传递不同的种子偏移值，采用线性探寻的方式构造多个 hash
函数；

#define MIX_UINT64(v) ((uint32_t)((v>>32)^(v)))
uint64_t hash1 = MurmurHash2_x64(key, len, Seed);
uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1));
for (i = 0; i < k; i++) // k 是hash函数的个数
{
	Pos[i] = (hash1 + i*hash2) % m; // m 是位图的⼤⼩
}