散列表的实现常常叫做散列(hashing)。散列仅支持INSERT,SEARCH和DELETE操作,都是在常数平均时间执行的。需要元素间任何排序信息的操作将不会得到有效的支持。
散列表是普通数组概念的推广。如果空间允许,可以提供一个数组,为每个可能的关键字保留一个位置,就可以运用直接寻址技术。
当实际存储的关键字比可能的关键字总数较小时,采用散列表就比较直接寻址更为有效。在散列表中,不是直接把关键字用作数组下标,而是根据关键字计算出下标,这种
关键字与下标之间的映射就叫做散列函数。
1.散列函数
一个好的散列函数应满足简单移植散列的假设:每个关键字都等可能的散列到m个槽位的任何一个中去,并与其它的关键字已被散列到哪个槽位无关。
1.1 通常散列表的关键字都是自然数。
1.11 除法散列法
通过关键字k除以槽位m的余数来映射到某个槽位中。
hash(k)=k mod m
应用除法散列时,应注意m的选择,m不应该是2的幂,通常选择与2的幂不太接近的质数。
1.12 乘法散列法
乘法方法包含两个步骤,第一步用关键字k乘上常数A(0
hash(k)=floor(m(kA mod 1))
乘法的一个优点是对m的选择没有什么特别的要求,一般选择它为2的某个幂。
一般取A=(√5-1)/2=0.618比较理想。
1.13 全域散列
随机的选择散列函数,使之独立于要存储的关键字。在执行开始时,就从一族仔细设计的函数中,随机的选择一个作为散列函数,随机化保证了
没有哪一种输入会始终导致最坏情况发生。
1.2 如果关键字是字符串,散列函数需要仔细的选择
1.2.1 将字符串中字符的ASCII码值相加
def _hash(key,m):
hashVal=0
for _ in key:
hashVal+=ord(_)
return hashVal%m
由于ascii码最大127,当表很大时,函数不会很好的分配关键字。
1.2.2 取关键字的前三个字符。
值27表示英文字母表的字母个数加上一个空格。
hash(k)=k[0]+27*k[1]+729*k[2]
1.2.3 用霍纳法则把所有字符扩展到n次多项式。
用32代替27,可以用于位运算。
de