- 哈希(hash)也叫散列;是把任意长度的输入,通过哈希算法,变换成固定长度的输出,所输出的称为哈希值(哈希值所占的空间一般来说远小于输入值的空间,不同的输入可能会哈希出相同的输出)。
- 在数据结构中,使用Hash算法的数据结构叫做哈希表,也叫散列表,主要是为了提高查询的效率。它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数就是hash函数,存放记录的数组叫做哈希表。在数据结构中应用时,有时需要较高的运算速度而弱化考虑抗碰撞性,可以使用自己构建的哈希函数。
1. hash函数的构造方法
hash函数的构造原则是:简单和均匀
即:
hash函数本身运算尽量简单,便于计算;
hash函数值必须在散列地址范围内,且分布均匀,冲突尽可能少;
下面是几种常用的hash函数构造方法:
- (1) 除留余数法
该方法是为简单的一种方法
h(key)=m%p ; m为表长,p为<=m的最大素数
关于p的选取:p应为不大于m的质数或不含20以下的质因子。如果p选取不当,会增加冲突的可能性
例:
- (2)数字分析法
- (3) 平方取中法
由于整数相除的运行速度通常比乘慢,因此有意识的避免除余法可以提高散列算法的运行时间。
平方取中法的具体方法是:首先通过求关键字的平方值扩大相近数的差别,然后根据表长度取中间的几位数作为hash值。因为一个乘积的中间几位数和乘数的每一位都相关,所以由此产生的散列地址比较均匀。
例:将(0100,0110,1010,1001,0111)平方后得(0010000,0012100,1020100,1002001,0012321),若表长位1000,则取中间3位数作为散列地址,即(100,121,201,020,123)
-
(4) 分段叠加法
有时关键子所含的位数很多,平方取中法计算太复杂,则可将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分进行叠加,叠加和(舍去进位)作为散列地址。具体的叠加方式有移位叠加和折叠叠加。
例:key=926483715503
移位叠加:h(key)=627
折叠叠加:h(key)=330