Hash表

Hash表

Hash表又称散列表,一般由Hash函数(散列函数)与链表结构共同实现。与离散化思想类似,当我们对若干复杂信息进行统计时,可以用Hash函数把这些复杂信息映射到一个容易维护的值域内。因为值域变简单、范围变小,有可能造成两个不同的原始信息被Hash函数映射为相同的值,所以我们需要处理这种冲突情况。有一种称为"开散列"的解决方法是,建立一个临界表结构,以Hash函数的值域作为表头数组head,映射后的值相同的原始信息被分到同一类,构成一个链表接在对应的表头之后,链表的节点上可以保存原始信息和一些统计数据。

Hash表主要包括两个基本操作:

1.计算Hash函数的值。

2.定位到对应链表中依次遍历、比较。

无论是检查任意一个给定的原始信息在Hash表中是否存在,还是更新他在Hash表中的统计数据,都需要基于这两个操作进行。

当Hash函数设计较好时,原始信息会被比较均匀的分配到各个表头之后,从而使每次查找、统计的时间降低到"原始信息总数除以表头数组长度"。若原始信息总数与表头数组长度都是O(N)级别且Hash函数分散均匀,几乎不产生冲突,那么每次查找、统计的时间复杂度期望为O(1)。

例如,我们要在一个长度为N的随机整数序列A中统计每个数出现了多少次。当数列A中的值都比较小时,我们可以直接用一个数组计数(建立一个大小等于值域的数组进行统计和映射,其实就是最简单的Hash思想)。

当数列A中的值很大时,我们可以把A进行排序后扫描统计。这里我们换一种思路,尝试一下Hash表的作法。设计Hash函数为H(x)=(x mod P)+1,其中P是一个比较大的质数,但不超过N。显然,这个Hash函数把数列A分成P类,我们可以依次考虑数列中的每个数A[i],定位到Head[H(A[i])]这个表头所指的链表。如果该链表中不包含A[i],我们就在表头后插入一个新节点A[i],并在节点上记录A[i]出现了1次,否则我们就直接找到已经存在的A[i]节点将其出现次数加1。因为整数序列A是随机的,所以最终所有的A[i]会比较均匀地分散在各个表头之后,整个算法的时间复杂度可以近似达到O(N)。

上面的例子是一个非常简单Hash表的直观应用。对于非随机的数列,我们可以设计更好的Hash函数来保证其时间复杂度。同样地,如果我们需要维护的是比大整数复杂得多的信息的某些性质(如是否存在、出现次数等),也可以用Hash表来解决。


字符串Hash

     下面介绍的字符串Hash函数把一个任意长度的字符串映射成一个非负数整数,并且其冲突概率几乎为0。
    取一固定值P,把字符串看做P进制数,并分配一个大于0的数值,代表每种字符。一般来说,我们分配的数值都远小于P。例如,对于小写字母构成的字符串,可以令a=1,b=2,...,z=26。取一固定值M,求出该P进制数对M的余数,作为该字符串的Hash值。
    一般来说,我们取 P=131 或   P=13331, 此时Hash值产生冲突的概率极低,只要Hash值相同,我们就可以认为原字符串是相等的。通常我们取 M = 2^64, 即直接使用 unsigned long long 类型存储这个Hash值,在计算时不处理算数溢出问题,产生溢出时相当于自动对2^64 取模,这样可以避免低效的取模运算。
    除了在及特殊构造的数据上,上述Hash算法很难产生冲突,一般情况下上述Hash算法完全可以出现在标准解答中。我们还可以多取一些恰当的P和M的值(例如大作质数),多进行几组Hash运算,当结果都相同时才认为原字符串相等,这就更加难以构造出使这个Hash产生错误的数据。
    对字符串的各种操作,都可以直接对P进制数进行算术运算反映到Hash值上。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值