学习笔记。部分转载零声教育:
https://ke.qq.com/cgi-bin/agency?aid=75950#category=-1&tab=1
总体知识脉络
背景
使用 word 文档时,word 如何判断某个单词是否拼写正确?
网络爬虫程序,怎么让它不去爬相同的 url 页面?
垃圾邮件过滤算法如何设计?
公安办案时,如何判断某嫌疑人是否在网逃名单中?
缓存穿透问题如何解决?
需求
从海量数据中查询某个字符串是否存在?
平衡二叉树(AVL)
中序遍历是有序的。(平衡二叉树定义:任意节点的子树的高度差都小于等于 1)
二分查找的办法需要:
1. 存储具体的元素
2. 比较字符串
散列表
根据 key 计算 key 在表中的位置的数据结构;是 key 和其所在存储地址的映射关系;
注意:散列表的节点中 kv 是存储在一起的;
散列表的办法需要:
1. 存储具体的元素
struct node {
void *key;
void *val;
struct node *next;
};
hash 函数
映射函数 Hash(key)=addr ;hash 函数可能会把两个或两个以上的不同 key 映射到同一地址,这种情况称之为冲突(或者 hash 碰撞);
计算速度快 (把 * ÷ %等操作转化为位运算来计算)强随机分布(等概率、均匀地分布在整个地址空间)murmurhash1,murmurhash2,murmurhash3,siphash(redis6.0当中使⽤,rust等大多数语言选用的hash算法来实现hashmap),cityhash 都具备强随机分布性;测试地址如下: https://github.com/aappleby/smhasher . siphash 主要解决字符串接近的强随机分布性 ;
负载因子
数组存储元素的个数 / 数据长度;用来形容散列表的存储密度;负载因子越小,冲突越小,负载因子越大,冲突越大;
map中的 负载因子≈0.6
Redis中的 负载因子≈1
冲突处理
链表法:
引用链表来处理哈希冲突;也就是将冲突元素用链表链接起来;这也是常用的处理冲突的⽅式;但是可能出现一种极端情况,冲突元素比较多,该冲突链表过长,这个时候可以将这个链表转换为红黑树或者AVL树;由原来链表时间复杂度O(n) 转换为红黑树时间复杂度
;那么判断该链表过长的依据是多少?可以采⽤超过 **256(经验值)**个节点的时候将链表结构转换为红黑树结构;
开放寻址法:
将所有的元素都存放在哈希表的数组中,不使用额外的数据结构;一般使用线性探查的思路解决;
- 当插入新元素的时,使用哈希函数在哈希表中定位元素位置;
- 检查数组中该槽位索引是否存在元素。如果该槽位为空,则插⼊,否则3;
- 在 2 检测的槽位索引上加一定步长接着检查2; 加⼀定步长分为以下几种:
1. i+1,i+2,i+3,i+4, … ,i+n
1.. 在.net HashTable类的hash函数Hk定义如下:
Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) +1) %(hashsize – 1)))] % hashsize
2.. 在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))) 与hashsize互为素数(两数互为素数表示两者没有共同的质因⼦);
执⾏了 hashsize 次探查后,哈希表中的每⼀个位置都有且只有⼀次被访问到,也就是说,对于给定的 key,对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj;
布隆过滤器
背景
不比较具体的key,如字符串,不存储具体的元素 。帮助我们处理海量的数据
布隆过滤器是一种概率型数据结构,它的特点是高效地插入和查询,能确定某个字符串一定不存在或者可能存在;
布隆过滤器不存储具体数据,所以占用空间小,查询结果存在误差,但是误差可控,同时不支持删除操作; (如果硬要删除,可以准备两个布隆过滤器(一个记录添加的,一个记录删除的查的时候对比两个布隆过滤器))
构成
位图(BIT 数组)+ n 个 hash 函数
原理
当一个元素加入位图时,通过 k 个 hash 函数将这个元素映射到位图的 k 个点,并把它们置为 1;当检索时,再通过 k 个 hash 函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那么认为该 key 不存在;如果全部为 1,则可能存在;
为什么不支持删除操作?
在位图中每个槽位只有两种状态(0 或者 1),一个槽位被设置为 1 状态,但不确定它被设置了多少次;也就是不知道被多少个 key 哈希映射而来以及是被具体哪个 hash 函数映射而来;
应用场景
布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允许判断存在时有误差的情况;
常见处理场景:① 缓存穿透的解决;② 热 key 限流;
使用步骤:
统计key是否是热key
1.一定时间内访问该key的次数。
2.次数达到阈值,放入布隆过滤器
3.下次访问key是先访问布隆过滤器(判断是否在热key中)
4.key不在过滤器中直接访问数据库
5.key在过滤器中有概率说明它是热点数据
mysql中的数据更新了的话,布隆过滤器也要更新。
应用分析
在实际应用中,该选择多少个 hash 函数?要分配多少空间的位图?预期存储多少元素?如何控制
误差?
公式如下:
n -- 预期布隆过滤器中元素的个数,如上图 只有str1和str2 两个元素 那么 n=2
p -- 假阳率,在0-1之间 0.000000
m -- 位图所占空间
k -- hash函数的个数
公式如下:
n = ceil(m / (-k / log(1 - exp(log(p) / k))))
p = pow(1 - exp(-k / (m / n)), k)
m = ceil((n * log(p)) / log(1 / pow(2, log(2))));
k = round((m / n) * log(2));
变量关系
假定4个初始值:(一般是先确定n和p,在网站上算出m k.)
n = 4000
p = 0.000000001
m = 172532
k = 30
面试百度 hash 函数实现过程当中 为什么 会出现 i*31?
i * 31 = i * (32-1) = i * (1<<5 -1) = i << 5 - i;
31 质数,hash 随机分布性是最好的; 如:17,31,101
确定 n 和 p
在实际使用布隆过滤器时,首先需要确定 n 和 p,通过上面的运算得出 m 和 k;通常可以在下面
这个网站上选出合适的值;
https://hur.st/bloomfilter
选择 hash 函数
选择一个 hash 函数,通过给 hash 传递不同的种子偏移值,采用线性探寻的方式构造多个 hash
函数;
#define MIX_UINT64(v) ((uint32_t)((v>>32)^(v)))
uint64_t hash1 = MurmurHash2_x64(key, len, Seed);
uint64_t hash2 = MurmurHash2_x64(key, len, MIX_UINT64(hash1));
for (i = 0; i < k; i++) // k 是hash函数的个数
{
Pos[i] = (hash1 + i*hash2) % m; // m 是位图的⼤⼩
}
分布式一致性 hash
背景
应用场景
分布式缓存;将数据均衡地分散在不同的服务器当中,用来分摊缓存服务器的压力;
解决缓存服务器数量变化尽量不影响缓存失效;
hash 偏移
hash 算法得到的结果是随机的,不能保证服务器节点均匀分布在哈希环上;分布不均匀造成请求访
问不均匀,服务器承受的压力不均匀;图片来源于互联网;(原因是节点不够多,随机性大)
**虚拟节点:**就是一个服务器搞出很多个分布均匀的节点解决哈希偏移的问题
思考
分布式一致性 hash 增加或者删除节点怎么进行数据迁移?
参考:https://github.com/metang326/consistent_hashing_cpp