Hash表
Hash表又称散列表,一般由Hash函数(散列函数)与链表结构共同实现。与离散化思想类似,当我们对若干复杂信息进行统计时,可以用Hash函数把这些复杂信息映射到一个容易维护的值域内。因为值域变简单、范围变小,有可能造成两个不同的原始信息被Hash函数映射为相同的值,所以我们需要处理这种冲突情况。有一种称为"开散列"的解决方法是,建立一个临界表结构,以Hash函数的值域作为表头数组head,映射后的值相同的原始信息被分到同一类,构成一个链表接在对应的表头之后,链表的节点上可以保存原始信息和一些统计数据。
Hash表主要包括两个基本操作:
1.计算Hash函数的值。2.定位到对应链表中依次遍历、比较。
无论是检查任意一个给定的原始信息在Hash表中是否存在,还是更新他在Hash表中的统计数据,都需要基于这两个操作进行。
当Hash函数设计较好时,原始信息会被比较均匀的分配到各个表头之后,从而使每次查找、统计的时间降低到"原始信息总数除以表头数组长度"。若原始信息总数与表头数组长度都是O(N)级别且Hash函数分散均匀,几乎不产生冲突,那么每次查找、统计的时间复杂度期望为O(1)。
例如,我们要在一个长度为N的随机整数序列A中统计每个数出现了多少次。当数列A中的值都比较小时,我们可以直接用一个数组计数(建立一个大小等于值域的数组进行统计和映射,其实就是最简单的Hash思想)。当数列A中的值很大时,我们可以把A进行排序后扫描统计。这里我们换一种思路,尝试一下Hash表的作法。设计Hash函数为H(x)=(x mod P)+1,其中P是一个比较大的质数,但不超过N。显然,这个Hash函数把数列A分成P类,我们可以依次考虑数列中的每个数A[i],定位到Head[H(A[i])]这个表头所指的链表。如果该链表中不包含A[i],我们就在表头后插入一个新节点A[i],并在节点上记录A[i]出现了1次,否则我们就直接找到已经存在的A[i]节点将其出现次数加1。因为整数序列A是随机的,所以最终所有的A[i]会比较均匀地分散在各个表头之后,整个算法的时间复杂度可以近似达到O(N)。
上面的例子是一个非常简单Hash表的直观应用。对于非随机的数列,我们可以设计更好的Hash函数来保证其时间复杂度。同样地,如果我们需要维护的是比大整数复杂得多的信息的某些性质(如是否存在、出现次数等),也可以用Hash表来解决。字符串Hash
下面介绍的字符串Hash函数把一个任意长度的字符串映射成一个非负数整数,并且其冲突概率几乎为0。取一固定值P,把字符串看做P进制数,并分配一个大于0的数值,代表每种字符。一般来说,我们分配的数值都远小于P。例如,对于小写字母构成的字符串,可以令a=1,b=2,...,z=26。取一固定值M,求出该P进制数对M的余数,作为该字符串的Hash值。
一般来说,我们取 P=131 或 P=13331, 此时Hash值产生冲突的概率极低,只要Hash值相同,我们就可以认为原字符串是相等的。通常我们取 M = 2^64, 即直接使用 unsigned long long 类型存储这个Hash值,在计算时不处理算数溢出问题,产生溢出时相当于自动对2^64 取模,这样可以避免低效的取模运算。
除了在及特殊构造的数据上,上述Hash算法很难产生冲突,一般情况下上述Hash算法完全可以出现在标准解答中。我们还可以多取一些恰当的P和M的值(例如大作质数),多进行几组Hash运算,当结果都相同时才认为原字符串相等,这就更加难以构造出使这个Hash产生错误的数据。
对字符串的各种操作,都可以直接对P进制数进行算术运算反映到Hash值上。