原教程地址:https://www.youtube.com/watch?v=KyUTuwz_b7Q
Hash Table,Hash Map是怎么来的?
Introduction
问题引入
在一个名字数组找名字Ada,需要遍历整个数组,复杂度 O(n) 。
如果我们知道Ada的索引,就可以 O(1) 直接找到Ada。
能不能构建一个函数,输入一个名字,输出得到索引?
这样要是查找一个名字,我们就可以直接算出索引,根本就不需要遍历!
尝试解决
我们采取这样的办法:
- 把每个名字的每个字母的ASCII码值加起来,得到一个数值
- 把这个数值对数组长度取模,得到一个index
- 把这个名字放到这个数组对应的index位置上
这样不管你要找什么名字,我直接通过计算就能知道它在哪里。搜索的时间复杂度是O(1)。
如果数组里存的是键值对,就类似于我们日常用的哈希表了。显然这里是把一个字符串当成了key。
Hashing Algotithm
把一个key映射到一个内存地址的算法。
- 对于整数类型的key,可以直接通过把key的值对可用地址的数目n进行取模。
- 对于字符串类的key,可以把每个字符的ASCII码之和对n取模。
- 还有一类 Folding Method,把key分成等量的部分,把每个部分计算的值加起来对n取模,比如把电话号码12345678拆成 12 34 56 78。
Collision Resolution
显然有一个问题上面没有提及,如果有多个key计算出来的地址是一样的怎么办??
显然,要存的东西越多,可用的内存地址越少,越容易出现这种情况。我们用一个指标来衡量这种情况的严重性:
L
o
a
d
F
a
c
t
o
r
=
要
存
的
东
西
的
总
数
可
用
内
存
的
数
量
Load Factor = \frac{要存的东西的总数}{可用内存的数量}
LoadFactor=可用内存的数量要存的东西的总数
L
o
a
d
F
a
c
t
o
r
Load Factor
LoadFactor越大,越容易出现冲突。
为了解决这个问题,出现了两类解法:
Open Addressing
叫Open是因为此类方法,每个内存地址对所有的要存的内容是开放的。也就是说,即使我发生冲突了,我可以存到别的地址上。
- Linear Probing
如果我发现计算得到的内容地址上已经有值了,我就去找下一个地址,直到找到空地址就存。查找时如果计算出的地址上不是我要的key,我就往下找直到找到我的key。这种方法最差的情况还是会遍历整个数组。 - Plus 3 Rehash
每次出现冲突,不停地找后面第三个地址有没有空位。 - Quadratic Probing
出现冲突,往后找失败次数的平方个位置。 - Double Hashing
出现冲突时,使用Second Hashing Function,得到该key下一次查找的步长。
Closed Addressing
叫Closed是因为此类方法,每个内存地址只对能通过哈希函数得到该地址的key开放。即使我发生冲突了,我也不能去占用别的地址。
- Chaining Method
每个数组的位置指向一个链表的头部。出现冲突时,在此处链表的尾部加上要存的内容即可。
Design Hash Functions
- 尽可能减少冲突
- 使要存的内容尽量均匀分布在可用内存上
- 哈希函数要尽量容易计算
- 要能够处理冲突问题