散列表（hash）

最新推荐文章于 2023-05-23 13:34:12 发布

berry_K

最新推荐文章于 2023-05-23 13:34:12 发布

阅读量715

点赞数

分类专栏：数据结构文章标签：数据结构

本文链接：https://blog.csdn.net/qq_34420188/article/details/60579455

版权

散列表是一种通过散列函数实现快速查找的数据结构，其查找期望时间复杂度为O(1)。本文介绍了散列表的概念、散列函数的选择标准、常见散列函数如平方取中法、除余法、相乘取整法和随机数法，以及开放地址法和拉链法处理冲突的原理和优缺点。文中还详细讨论了冲突的影响因素、装填因子α对查找性能的影响，并给出了查找、插入和删除操作的算法示例。

摘要由CSDN通过智能技术生成

散列方法不同于顺序查找、二分查找、二叉排序树及B-树上的查找。它不以关键字的比较为基本操作，采用直接寻址技术。在理想情况下，无须任何比较就可以找到待查关键字，查找的期望时间为O(1)。

散列表的概念

1、散列表
     　设所有可能出现的关键字集合记为U(简称全集)。实际发生(即实际存储)的关键字集合记为K（|K|比|U|小得多）。
     　散列方法是使用函数h将U映射到表T[0..m-1]的下标上（m=O(|U|)）。这样以U中关键字为自变量，以h为函数的运算结果就是相应结点的存储地址。从而达到在O(1)时间内就可完成查找。
   其中：
　     ① h：U→{0，1，2，…，m-1} ，通常称h为散列函数(Hash Function)。散列函数h的作用是压缩待处理的下标范围，使待处理的|U|个值减少到m个值，从而降低空间开销。
     　② T为散列表(Hash Table)。
     　③ h(K_i)(K_i∈U)是关键字为K_i结点存储地址(亦称散列值或散列地址)。
     　④ 将结点按其关键字的散列地址存储到散列表中的过程称为散列(Hashing)
3、散列表的冲突现象
（1）冲突
     　两个不同的关键字，由于散列函数值相同，因而被映射到同一表位置上。该现象称为冲突(Collision)或碰撞。发生冲突的两个关键字称为该散列函数的同义词(Synonym)。
   　【例】上图中的k₂≠k₅，但h(k₂)=h(k₅)，故k₂和K₅所在的结点的存储地址相同。

（2）安全避免冲突的条件
     　最理想的解决冲突的方法是安全避免冲突。要做到这一点必须满足两个条件：
①其一是|U|≤m
②其二是选择合适的散列函数。
　     这只适用于|U|较小，且关键字均事先已知的情况，此时经过精心设计散列函数h有可能完全避免冲突。

（3）冲突不可能完全避免
     　通常情况下，h是一个压缩映像。虽然|K|≤m，但|U|>m，故无论怎样设计h，也不可能完全避免冲突。因此，只能在设计h时尽可能使冲突最少。同时还需要确定解决冲突的方法，使发生冲突的同义词能够存储到表中。

（4）影响冲突的因素
     　冲突的频繁程度除了与h相关外，还与表的填满程度相关。
     　设m和n分别表示表长和表中填人的结点数，则将α=n/m定义为散列表的装填因子(Load Factor)。α越大，表越满，冲突的机会也越大。通常取α≤1。

1、散列函数的选择有两条标准：简单和均匀。
     　简单指散列函数的计算简单快速；
     　均匀指对于关键字集合中的任一关键字，散列函数能以等概率将其映射到表空间的任何一个位置上。也就是说，散列函数能将子集K随机均匀地分布在表的地址集{0，1，…，m-1}上，以使冲突最小化。

2、常用散列函数
     　为简单起见，假定关键字是定义在自然数集合上。

（1）平方取中法
     　具体方法：先通过求关键字的平方值扩大相近数的差别，然后根据表长度取中间的几位数作为散列函数值。又因为一个乘积的中间几位数和乘数的每一位都相关，所以由此产生的散列地址较为均匀。
   　【例】将一组关键字(0100，0110，1010，1001，0111)平方后得
     (0010000，0012100，1020100，1002001，0012321)
   　若取表长为1000，则可取中间的三位数作为散列地址集：
     (100，121，201，020，123)。
相应的散列函数用C实现很简单：
int Hash(int key){ //假设key是4位整数
   key*=key； key/=100； //先求平方值，后去掉末尾的两位数
   return key％1000； //取中间三位数作为散列地址返回
}

（2）除余法
     　该方法是最为简单常用的一种方法。它是以表长m来除关键字，取其余数作为散列地址，即 h(key)=key％m
     　该方法的关键是选取m。选取的m应使得散列函数值尽可能与关键字的各位相关。m最好为素数。
   　【例】若选m是关键字的基数的幂次，则就等于是选择关键字的最后若干位数字作为地址，而与高位无关。于是高位不同而低位相同的关键字均互为同义词。
   　【例】若关键字是十进制整数，其基为10，则当m=100时，159，259，359，…，等均互为同义词。

（3）相乘取整法
     　该方法包括两个步骤：首先用关键字key乘上某个常数A(0<A<1)，并抽取出key.A的小数部分；然后用m乘以该小数后取整。即：