哈希表
定义:
一般的查找都是基于比较的,其关键字和在结构中的位置是没有确定的对应关系的,查找的效率依赖于比较的次数。
理想的情况是,每个记录的关键字和其在结构中的位置是有确定的关系的,就像是函数的变量和因变量一样,对于每一个
K
,有一个
构造哈希表的步骤:
1. 构造哈希函数:
这一步就是需要构造一个好的哈希函数,这样在存取时能更有效率。好的哈希函数有这样的特点:即对于关键字集合中的任一个关键字,经哈希函数映像到地址集合中任一个地址的概率是相等的。
常见的构造哈希函数的方法:
直接定址法:取关键字或者关键字的某个线性函数值作为哈希地址。即
H(key)=key或者H(key)=a∗key+b 其中 a和b 都是常数数字分析法:假设关键字是以r为基的数,并且哈希表中可能出现的关键字都是事先知道的,则可以去关键字的若干数位组成哈希地址。
平方取中法:取关键字平方之后的中间几位为哈希地址。
折叠法:将关键字分割为位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和作为哈希地址,
除留余数法:取关键字被某个不大于哈希表表长m的数p除后所得的余数为哈希地址。即 H(key)=keymodp,p≤m
随机数法:选择一个随机数,取关键字的随机函数值作为他的哈希地址。即 H(key)=random(key)
2. 确定冲突处理方案:
常见的处理冲突的方法:
开放定址法: Hi=(H(key)+di)modm,i=1,2...k(k≤m−1) 其中 H(key) 为哈希函数,m为哈希表的长度, di 为增量序列。
- di=1,2,3,4....m−1 ,称为线性探测再散列
- di=12,−12,22,−22,32,...,k2,−k2 称为二次探测再散列
- di=伪随机数序列 ,称为为随机探测再散列
再哈希法: Hi=RHi(key),i=1,2,3,.....,k , RHi 均是不同的哈希函数,即在同义词产生地址冲突时计算另一个哈希函数地址,知道冲突不在发生。
链地址法:将所有关键字为同义词的记录存储在同一线性链表中。假设某哈希函数产生的哈希地址在区间[0,m-1]上,则设立一个指针型向量Chain ChainHash[m];其中每个分量的初识状态都是空指针。凡哈希地址为i的都插入到头指针为ChainHash[i]的链表中。
使用公共溢出区:假设哈希函数的值域为[0,m-1],则设向量HashTable[0…..m-1]为基本表,每个分量存放一个值,另设立向量OverTable[0,…,v]为溢出表。所有关键字和基本表中的关键字为同义词的记录,不管他们由哈希函数得到的哈希地址是什么,一旦发生冲突,都填入溢出表中。