哈希函数和哈希表
1. 什么是哈希函数
它是一种映射关系
,它可以把任意长度的输入映射到任意一个固定长度
的整数值,也称为散列函数,其值是十六进制的数。
说白了,哈希函数就是用来将key-value结构中关键字值转换为数组的下标的函数(一般都是通过取模,而且这样子在数据量很大的情况下一般是均匀分布的)
,然后将该结构存放到数组中去,然后这个数组就叫做哈希表.
这个固定长度不是说所有长度的输入获取到的整数永远是一个长度,我觉得有两种理解:
- 它是说比如
String str = "abc"和String str1 = "def"
,那它俩这种同一类型的且长度相同
的获取到的是整数的位数是一般一样的
; - 比如说
String str= "abc"
,当你输入参数固定的情况下,你不管运行多少回,这个字符串的哈希值是一定的,即输入一样,输出一定一样
; - 当然这里有个特殊的东西:那就是比如说
String str = new String("abc"),
这个你重复运行后生成的哈希值是不一样的,因为每次重复运行生成的都是一个新的对象.
这个你可以用hashCode()
方法测试,你输入多个长度相同的string类型的字符串,看看输出的是不是都是十六进制的相同长度的整数就可以了.
特殊情况: 由于输入域是无穷的,但是输出域范围是有限的(它是16位的,每个位置都有16个数,一共只有16^16个数,即范围为 - 2^64 ~ 2^64-1),所以一定会出现不同的输入域但是得到了同一个输出,这就叫哈希冲突.
2. 什么是哈希表
哈希表(hash table,也叫散列表)是根据关键码值(Key value中的key)而直接进行访问的数据结构,也就是说: 哈希表基于数组
,其中每个单元都是类似于key-value的存储形式
,关键字值通过哈希函数映射为数组的下标,如果一个关键字哈希化(将关键字转换为数组下标的过程)
后映射到一个已占用的数组单元,这种情况就是上面的哈希冲突。
3. 如何解决哈希冲突
- 开发地址法:
开放地址法的思路就是: 通过系统的方法找到数组的一个空位,并把这个元素填进去,就不再用哈希函数获得的数组下标,它有三种方法:
- 线性探测
线性探测的思路: 它会线性的查找空白单元.
比如说5421是哈希函数计算出来的下标,但是它已经被占用了,那它就去使用5422,如果5422也被使用了,那它就去使用5423,以此类推,它的数组下标会一直递增,知道找到空白的位置.
但是这会有一个问题: 那就是当哈希表太满
的时候,我们每插入一个数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据占用了,这就称为聚集 - 二次探测(解决聚集)
二次探测的思想: 探测相距较远的单元,而不是和原始位置相邻的单元.
比如说: 如果哈希函数计算的原始下标是x,线性探测就是x+1,x+2,x+3这样子类推下去,
而在二次探测中,探测的过程是x+1, x+4,x+9,x+16这样子
,到原始位置的距离是步数的平方.这样子可以很好的解决线性探测带来的聚集问题.
**但是这会产生一个新的问题:**这个问题叫做二次聚集,比如说184,552,336,753依次插入表中,他们通过哈希函数计算出来的下标都是7,按照上面的规律,552就放在8,336需要放在11,753需要放在17这样子,后面再有要放在下标为7的元素的话,它就要往后面移动更长的距离. - 再哈希法(解决二次聚集)
由于二次聚集的原因是因为每次移动的长度有规律的:**1,4,9,16,25这样子,**那么解决方法就是找到一种依赖于关键字的探测序列,那么就可以做到每个关键字移动的方法就都不一样了,即把关键字通过不同的哈希函数再做一遍哈希化,用这个结果作为步长,每次移动步长个距离,虽然步长对于每个关键字来说是一定的,但是不同关键字的步长是不一样的.
为了实现想要的效果,第二个哈希函数必须有以下几个特点:- 和第一个哈希函数不能相同.
- 不能输出0,输出0就永远在原地踏步,就死循环了.
2.链地址法:
链地址法的思路: 把哈希表每个单元中的存储方式都设置为链表
,某个数据项的关键字值还是像之前一样通过哈希函数映射到哈希表,但是这个数据插入到哈希表指定下标单元的链表中,当有其他元素映射到同一个单元的时候,就往链表后面挂就可以了.