散列表的基本概念
基本思想:记录的存储位置与关键字之间存在对应关系
对应关系——hash函数:Loc(i) = H(keyi) → hash函数
例如:
根据散列函数 H(key) = k
查找 key = 9,则访问H(9) = 9号地址,若内容为9则成功;
若查不到,则返回一个特殊值,如空指针或空记录
优点:查找效率高
缺点:空间效率低
散列表的若干术语
散列方法(杂凑法)
选取某个函数,依该函数按关键字计算元素的存储位置,并按此存放;
查找时,由同一个函数对给定值k计算地址,将k与地址单元中元素关键码进行对比,确定查找是否成功。
散列函数(杂凑函数):散列方法中使用的转换函数。
散列表(杂凑表):按上述思想构造出的表
散列函数:
H
(
k
e
y
)
=
k
H(key) = k
H(key)=k
冲突:不同的关键码映射到同一个散列地址
k
e
y
1
≠
k
e
y
2
,但是
h
(
k
e
y
1
)
=
H
(
k
e
y
2
)
key1 ≠ key2,但是h(key1) = H(key2)
key1=key2,但是h(key1)=H(key2)
例: 有6个元素的关键码分别为:(25,21,39,9,23,11),
选取关键码与元素位置间的函数为 H(k) = k mod 7,
地址编号从 0 - 6。
散列函数的构造方法
同义词:具有相同函数值的多个关键字
散列存储
选取某个函数,依该函数按关键字计算元素的存储位置;
Loc(i) = H(keyi)
冲突 不同的关键码映射到同一散列地址;
key1 ≠ key2,但是h(key1) = H(key2)
在散列查找方法中,冲突是不可能避免的,只能尽可能减少。
构造散列函数考虑的因素:
1)执行速度(即计算散列函数所需时间);
2)关键字长度;
3)散列表的大小;
4)关键字的分布情况;
5)查找频率。
常用的构造方法有:
1.直接定址法
2. 数字分析法
3. 平方取中法
4. 折叠法
5. 除留余数法
6. 随机数法
处理冲突的方法
开放定址法
基本思想:
有冲突时就去寻找下一个空的散列地址,只要散列表足够大,空的散列地址总能找打,并将数据元素存入。
线性探测法
例如:
关键码集为{47,7,29,11,16,92,22,8,3},散列表长为m = 11;散列函数为Hash(key) = key mod 11;拟用线性探测法处理冲突。散列表如下:
二次探测法
伪随机探测法
链地址法
基本思想:
相同散列地址的记录链成一单链表,m个散列地址就设m个单链表,然后用一个数组将m个单链表的表头指针存储起来,形成一个动态结构。
链地址法建立散列表步骤:
Step1: 取数据元素的关键字key,计算其散列函数值(地址)。若该地址对应的链表为空,则将该元素插入此链表;否则执行Step2解决冲突。
Step2: 根据算则的冲突处理方法,计算关键字key的下一个存储地址。若该地址对应的链表不为空,则利用链表的前插法或后插法将该元素插入此链表。
链地址法的优点:
- 非同义词不会冲突,无“聚集”现象
- 链表上结点空间动态申请,更适合于表长不确定的情况
散列表的查找
散列表的查找效率
使用平均查找长度ASL来衡量查找算法,ASL取决于:
- 散列函数
- 处理冲突的方法
- 散列表的装填因子 α α α
α
=
表中填入的记录数
哈希表的长度
α = \frac{\text{表中填入的记录数}}{哈希表的长度}
α=哈希表的长度表中填入的记录数
α
α
α 越大,表中记录数越多,说明表装得越满,发生冲突的可能性就越大,查找时比较次数就越多
ASL与装填因子
α
α
α 有关!既不是严格的
O
(
1
)
O(1)
O(1),也不是
O
(
n
)
O(n)
O(n)
结论:
散列表技术具有很好的平均性能,优于一些传统的技术;
链地址法优于开地址法;
除留余法作散列函数优于其它类型函数。