定义
Hash也叫散列,任意长度的输入通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。
通过把关键码值映射到表中一个位置来访问记录,有点类似于数组,并且能在O(1)(冲突情况另算)下查找到元素。
Hash函数
-
直接取余法:取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。该方法的关键是选取p。选取的p应使得散列函数值尽可能与关键字的各位相关。p最好为素数
-
直接寻址法:比如在一个0~100岁的年龄统计表,我们就可以把年龄作为地址
-
平方取中法:6031,平方后为8位数字36372961,取中间的4位数字,3729。因为一个乘积的中间几位数和乘数的每一位都相关,所以由此产生的散列地址较为均匀。
-
随机数法:选择一个随机函数,取关键字的随机函数值为它的散列地址,即h(key)=random(key)
-
数字分析法 :根据关键码每一位的分布情况,选取某几位,组合成散列地址。所选的位应是r种符号在该位上出现的频率大致相同
-
乘法取整法:Hash(key)=B*(A*key%1);以关键码keyA,取其小数部分(Akey%1就是取A*key的小数部分),之后再用整数B乘以这个值,取结果的整数部分作为散列地址
解决冲突
-
开放定址法:用开放定址法解决冲突的做法是:当冲突发生时,使用某种探查技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找,直到找到给定 的关键字,或者碰到一个开放的地址(即该地址单元为空)为止。(若要插入,在探查到开放的地址,则可将待插入的新结点存人该地址单元;查找时探查到开放的 地址则表明表中无待查的关键字,即查找失败)
-
拉链法 : 拉链法解决冲突的做法是:将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m,则可将散列表定义为一个由m个头指针组成的指针数 组T[0…m-1]。凡是散列地址为i的结点,均插入到以T[i]为头指针的单链表中
-
再散列法:在产生地址冲突时计算另一个散列函数地址,直到冲突不再发生,这种方法不易产生“聚集”,但增加了计算时间。
-
建立公共溢出区法