Hash快速查找

最新推荐文章于 2023-06-11 19:09:00 发布

weixin_34352005

最新推荐文章于 2023-06-11 19:09:00 发布

阅读量188

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/li-hao/archive/2011/10/16/2214017.html

版权

1.哈希表的概念:
   哈希是一种重要的存储方法，也是一种重要的查找方法。
   它的基本思想是：以关键字K为自变量，通过一个确定的函数f，计算出对应的函数值f (k)，把这个值解释为关键字等于K的结点的存储地址。查找时，再根据要查找的关键字用同样的函数计算地址，然后到相应的存储单元取出要查找的结点。按这个思想建立的表，称为哈希表，称函数f 为哈希函数，称f (k)的值为哈希地址。
   哈希表实例：已知线性表的关键字集合为：
   S = {and,begin,do,end,for,go,if,then,until }
   则可设哈希表为：
   char HT[26][8]
   哈希函数H(key)的值，可取关键字key中第一个字母在字母表中的序号（0~25），即 H(key) = key[0]- 'a'
   哈希函数是一个映射，其设定可以很灵活，只要使得任何关键字的哈希函数值都落在表长允许范围内即可。
   对不同关键字可能得到同一哈希地址，这一现象称为"冲突"，而发生冲突的关键字对于该哈希函数来说，称为"同义词"。因关键字集合比哈希表长度大，故冲突不可避免。

2. 哈希函数的构造方法:
   2.1 直接定址法：
   取关键字或关键字的某个线性函数值为哈希地址。即： H(key) = key 或 H(key) = a*key+b 实例：某大学从1960年开始招生，有历届招生人数统计表，其中以年份为关键字。则哈希函数可设计为：H(key) = key - 1959 直接定址法由于关键字与存储地址存在一一对应关系，因此，不会发生冲突现象。
   2.2 除余法：
   选择一个适当的正整数P（P≤表长），用P 去除关键字，取所得余数作为哈希地址。即：H(key) = key % P （P ≤ 表长）除余法的关键是选取适当的P，一般选P为小于或等于哈希表的长度m的某个素数为好。
   例： m = 8，16，32，128，256，512 P = 7，13，31，127，251，503 除余法不仅可以直接对关键字取模，也可在折叠、平方取中等运算之后取模。
   2.3 平方取中法：
   取关键字平方后的中间几位为哈希地址。由于一个数的平方的中间几位与这个数的每一位都有关，因而，平方取中法产生冲突的机会相对较小。平方取中法中所取的位数由表长决定。
   例： K = 456 , K2 = 207936 若哈希表的长度m=102，则可取79（中间两位）作为哈希函数值。
   2.4 折叠法：
   把一个关键码分成位数相同的几段（最后一段的位数可以，不同），段的长度取决于哈希表的地址位数，然后将各段的叠加和（舍去进位）作为哈希地址。
   折叠法又分为移位叠加和边界叠加两种。其中，移位叠加是将各段的最低位对齐，然后相加；而边界叠加则是两个相邻的段沿边界来回折叠，然后对齐相加。
   例：关键字K=58242324169，哈希表长度为1000，则将此关键字分成三位一段，两种叠加结果如下：582+ 423+ 241+69=315,582+324+ 241+96= 243
   当关键字位数很多，而且关键字中每一位上数字分布大致均匀时，可以使用折叠法。
   2.5 数字分析法：
   假设关键字是以r为基的数，并且哈希表中可能[TA6：除余法] 出现的关键字都是事先知道的，则可取关键字中的若干位组成哈希地址。

3. 处理冲突的方法:
　3.1 开放定址法：
  基本做法：当冲突发生时，使用某种方法在哈希表中形成一探查序列，然后沿着此探查序列逐个单元地查找，直到碰到一个开放的地址（即该地址单元为空）为止。
  在哈希表中形成一探查序列时，可有三种不同的方法:
  ⑴ 线性探测法:
  基本思想：将散列看成是一个环形表，探测序列是(假设表长为m)：
H(k),H(k)+1,H(k)+2,…,m-1,0,1,…,H(k)-1
  用线性探法解决冲突时，求下一个开放地址的公式为：
Hi = (H(k)+i) MOD m
  ⑵ 二次探测法:
  二次探测法的探测序列依次是12，-12，22，-22，…等，当发生冲突时，求下一个开放地址的公式为：
  H2i-1 = (H(k)+i2) MOD m
  H2i = (H(k)-i2) MOD m (1=< i <= (m-1)/2 )
  优点：减少了堆集发生的可能性。
  缺点：不容易探测到整个哈希表空间。
  ⑶ 伪随机探测法:
  采用随机探查法解决冲突时，求下一个开放地址的公式为：
  Hi = (H(k)+Ri) MOD m
  其中：R1，R2，…，Rm-1是1，2，…，m-1的一个随机排列。如何得随机排列，涉及到随机数的产生问题。
  3.2 再哈希法：
  基本做法：当冲突发生时，使用另一个哈希函数计算得到一个新的哈希地址，直到冲突不再发生时为止，即
  Hi = RHi(key) i = 1,2,…,k
  其中，RHi均是不同的哈希函数。
  这种方法的优点是不易产生"堆集"，但缺点是增加了计算时间。
　3.3 链地址法：
  基本做法：将所有关键字为同义词的结点链接在同一个单链表中。若选定的哈希函数所产生的哈希地址为0~m-1,则可将哈希表定义成一个由m个链表头指针组成的指针数组。

这种方法的优点是：
    ① 不产生"堆集"。
    ② 由于结点空间是动态申请的，故更适合于造表前无法确定表长的情况。
    ③ 从表中删除结点容易。
　3.4 公共溢出区法法：
  基本做法：假设哈希函数的值域为[0..m-1]，则设向量HashTable[0..m-1]为基本表，每个分量存放一个记录，另设立向量OverTable[0..v]为溢出表。所有关键字和基本表中关键字为同义词的记录，不管它们由哈希函数得到的哈希地址是什么，一旦发生冲突，都被填入溢出表中。
在哈希表上进行查找的过程和建表的过程基本一致。假设给定的值为K，根据建表时设定的哈希函数H，计算出哈希地址H(K)，若表中该地址对应的空间未被占用，则查找失败，否则将该地址中的结点与给定值K比较，若相等则查找成功，否则按建表时设定的处理冲突方法找下一个地址，如此反复下去，直到找到某个地址空间未被占用（查找失败）或者关键字比较相等（查找成功）为止。

4.HASH查找的程序实现:
4.1 查找：
在哈希表上进行查找的过程和建表的过程基本一致。假设给定的值为K，根据建表时设定的哈希函数H，计算出哈希地址H(K)，若表中该地址对应的空间未被占用，则查找失败，否则将该地址中的结点与给定值K比较，若相等则查找成功，否则按建表时设定的处理冲突方法找下一个地址，如此反复下去，直到找到某个地址空间未被占用（查找失败）或者关键字比较相等（查找成功）为止。

4.2 查找算法演示:

4.3 性能分析：
  虽然哈希表是在关键字和存储位置之间建立了对应关系，但是由于冲突的发生，哈希表的查找仍然是一个和关键字比较的过程，不过哈希表平均查找长度比顺序查找要小得多，比二分查找也小。
  查找过程中需和给定值进行比较的关键字个数取决于下列三个因素：哈希函数、处理冲突的方法和哈希表的装填因子。
  哈希函数的"好坏"首先影响出现冲突的频繁程度，但如果哈希函数是均匀的，则一般不考虑它对平均查找长度的影响。
  对同一组关键字，设定相同的哈希函数，但使用不同的冲突处理方法，会得到不同的哈希表，它们的平均查找长度也不同。
  一般情况下，处理冲突方法相同的哈希表，其平均查找长度依赖于哈希表的装填因子α。
  显然，α越小，产生冲突的机会就越，但α过小，空间的浪费就过多。通过选择一个合适的装填因子α，可以将平均查找长度限定在一个范围内。

转载于:https://www.cnblogs.com/li-hao/archive/2011/10/16/2214017.html

weixin_34352005

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hash快速查找

1.哈希表的概念:哈希是一种重要的存储方法，也是一种重要的查找方法。它的基本思想是：以关键字K为自变量，通过一个确定的函数f，计算出对应的函数值f(k)，把这个值解释为关键字等于K的结点的存储地址。查找时，再根据要查找的关键字用同样的函数计算地址，然后到相应的存储单元取出要查找的结点。按这个思想建立的表，称为哈希表，称函数f为哈希函数，称f(k)的值为哈希地址。哈希表实例：...
复制链接

扫一扫