散列
5.1 基本概念
散列函数: 一个把查找表中关键字映射成该关键字对应的地址的函数,记为Hash(Key)=Addr。
冲突: 散列函数可能把两个或两个以上不同关键字映射到同一个地址,称为冲突。
同义词: 发生冲突的不同关键词称为同义词。
散列表: 根据关键字直接进行访问的数据结构。散列表建立了关键字和存储地址之间的直接映射。
散列: 散列表的实现常常叫做散列(Hashing)。
理想情况下对散列表查找时间复杂度为O(1)。
5.2 散列函数构造方法
构造散列函数注意事项: 散列函数目标是尽量降低产生冲突的可能性。
(1)散列函数定义域必须包含全部关键字,值域依赖于散列表大小和地址的范围。
(2)计算出来的地址应该等概率、均匀地分布在地址空间,从而减少冲突发生。
(3)散列函数应该尽量简单,容易算。
下面为常用散列函数。
(1) 直接定址法
直接取关键字的某个线性函数值为散列地址。 H(key)=a*key+b (a,b为常数)
优点: 计算最简单,且不会发生冲突。适合关键字的分布基本连续的情况。
缺点: 当关键字分布不连续时,会造成空位较多,存储空间浪费的情况。
(2) 除留余数法
H(key)=key%p
选好p是关键,尽量减少冲突的可能性。
一般选取一个不大于散列表表长m但接近于或等于m的质数p。