一:散列表的概念
- 定义:散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数f(key)为哈希函数。
- 基本概念:
- 若关键字为k,则其值存放在f(k)的存储位置上。由此,不需比较便可直接取得所查记录。称这个对应关系f为散列函数,按这个思想建立的表为散列表。
- 对不同的关键字可能得到同一散列地址,即k1≠k2,而f(k1)=f(k2),这种现象称为冲突。具有相同函数值的关键字对该散列函数来说称做同义词。综上所述,根据散列函数f(k)和处理冲突的方法将一组关键字映射到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“像”作为记录在表中的存储位置,这种表便称为散列表,这一映射过程称为散列造表或散列,所得的存储位置称散列地址。
- 若对于关键字集合中的任一个关键字,经散列函数映象到地址集合中任何一个地址的概率是相等的,则称此类散列函数为均匀散列函数,这就是使关键字经过散列函数得到一个“随机的地址”,从而减少冲突。
- 散列技术一般不适用于允许多个记录有同样关键码的情况,散列方法也不适用于范围查找,换言之,在散列表中,我们不可能找到最大或最小关键码的记录,也不可能找到某一范围内的记录。
二:散列表的构造方法
设计散列函数一般应遵循以下原则:
- 计算简单。散列函数不应该有很大的计算量,否则会降低查找效率。
- 函数值即散列地址分布均匀。函数值要尽量均匀散布在地址空间,这样才能保证存储空间的有效利用并减少冲突。
散列函数常用的构造方法有五种:
1.直接定址法
2. 除留余数法
最常用的构造方法。对于散列表长为 m 的散列函数公式为 F ( key ) = key mod p ( p < m) , mod 是取模(求余数)。
3. 数字分析法
4.平方取中法
5. 折叠法
三:处理冲突的方法
如上所述,冲突不可能完全避免,因此,妥善处理冲突是构造散列表必须要解决的问题,下面是常用的几种解决办法。
1. 线性探测法
1.线性探测法
2.二次探测法
3.随机探测法
2.再散列法
当出现冲突时,也可以这样处理:用另外不同的散列函数来计算散列地址,若此时还有冲突,则再用另外的散列函数,以此类推,知道找到空位置。
3.链地址法(拉链法)
更多内容大家可以前往我的个人博客浏览:eyes++的个人空间