哈希函数和哈希表

最新推荐文章于 2024-08-11 11:35:51 发布

fanfan要努力呀

最新推荐文章于 2024-08-11 11:35:51 发布

阅读量1.2k

点赞数 3

分类专栏：算法文章标签：哈希

本文链接：https://blog.csdn.net/qq_41223155/article/details/95656172

版权

算法专栏收录该内容

18 篇文章 0 订阅

订阅专栏

哈希函数和哈希表

1. 什么是哈希函数

它是一种映射关系，它可以把任意长度的输入映射到任意一个固定长度的整数值，也称为散列函数,其值是十六进制的数。

说白了,哈希函数就是用来将key-value结构中关键字值转换为数组的下标的函数(一般都是通过取模,而且这样子在数据量很大的情况下一般是均匀分布的),然后将该结构存放到数组中去,然后这个数组就叫做哈希表.

这个固定长度不是说所有长度的输入获取到的整数永远是一个长度,我觉得有两种理解:

它是说比如String str = "abc"和String str1 = "def",那它俩这种同一类型的且长度相同的获取到的是整数的位数是一般一样的;
比如说String str= "abc",当你输入参数固定的情况下,你不管运行多少回,这个字符串的哈希值是一定的,即输入一样,输出一定一样;
当然这里有个特殊的东西:那就是比如说String str = new String("abc"),这个你重复运行后生成的哈希值是不一样的,因为每次重复运行生成的都是一个新的对象.

这个你可以用hashCode()方法测试,你输入多个长度相同的string类型的字符串,看看输出的是不是都是十六进制的相同长度的整数就可以了.

特殊情况: 由于输入域是无穷的,但是输出域范围是有限的(它是16位的,每个位置都有16个数,一共只有16^16个数,即范围为 - 2^64 ~ 2^64-1),所以一定会出现不同的输入域但是得到了同一个输出,这就叫哈希冲突.

2. 什么是哈希表

哈希表(hash table,也叫散列表)是根据关键码值(Key value中的key)而直接进行访问的数据结构,也就是说: 哈希表基于数组，其中每个单元都是类似于key-value的存储形式，关键字值通过哈希函数映射为数组的下标，如果一个关键字哈希化(将关键字转换为数组下标的过程)后映射到一个已占用的数组单元，这种情况就是上面的哈希冲突。

3. 如何解决哈希冲突

开发地址法:

开放地址法的思路就是: 通过系统的方法找到数组的一个空位,并把这个元素填进去,就不再用哈希函数获得的数组下标,它有三种方法:

线性探测
线性探测的思路: 它会线性的查找空白单元.
比如说5421是哈希函数计算出来的下标,但是它已经被占用了,那它就去使用5422,如果5422也被使用了,那它就去使用5423,以此类推,它的数组下标会一直递增,知道找到空白的位置.
但是这会有一个问题: 那就是当哈希表太满的时候,我们每插入一个数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据占用了,这就称为聚集
二次探测(解决聚集)
二次探测的思想: 探测相距较远的单元,而不是和原始位置相邻的单元.
比如说: 如果哈希函数计算的原始下标是x,线性探测就是x+1,x+2,x+3这样子类推下去,而在二次探测中,探测的过程是x+1, x+4,x+9,x+16这样子,到原始位置的距离是步数的平方.这样子可以很好的解决线性探测带来的聚集问题.
**但是这会产生一个新的问题:**这个问题叫做二次聚集,比如说184,552,336,753依次插入表中,他们通过哈希函数计算出来的下标都是7,按照上面的规律,552就放在8,336需要放在11,753需要放在17这样子,后面再有要放在下标为7的元素的话,它就要往后面移动更长的距离.
再哈希法(解决二次聚集)
由于二次聚集的原因是因为每次移动的长度有规律的:**1,4,9,16,25这样子,**那么解决方法就是找到一种依赖于关键字的探测序列,那么就可以做到每个关键字移动的方法就都不一样了,即把关键字通过不同的哈希函数再做一遍哈希化,用这个结果作为步长,每次移动步长个距离,虽然步长对于每个关键字来说是一定的,但是不同关键字的步长是不一样的.
为了实现想要的效果,第二个哈希函数必须有以下几个特点:
1. 和第一个哈希函数不能相同.
2. 不能输出0,输出0就永远在原地踏步,就死循环了.