Hash表

最新推荐文章于 2022-03-16 13:29:25 发布

MiaoPlus

最新推荐文章于 2022-03-16 13:29:25 发布

阅读量167

点赞数

分类专栏： =========基本数据结构========== 文章标签： Hash表哈希表字符串Hash

本文链接：https://blog.csdn.net/XxxxxM1/article/details/80209409

版权

=========基本数据结构========== 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

Hash表

Hash表又称散列表，一般由Hash函数（散列函数）与链表结构共同实现。与离散化思想类似，当我们对若干复杂信息进行统计时，可以用Hash函数把这些复杂信息映射到一个容易维护的值域内。因为值域变简单、范围变小，有可能造成两个不同的原始信息被Hash函数映射为相同的值，所以我们需要处理这种冲突情况。有一种称为"开散列"的解决方法是，建立一个临界表结构，以Hash函数的值域作为表头数组head,映射后的值相同的原始信息被分到同一类，构成一个链表接在对应的表头之后，链表的节点上可以保存原始信息和一些统计数据。

Hash表主要包括两个基本操作：

1.计算Hash函数的值。

2.定位到对应链表中依次遍历、比较。

无论是检查任意一个给定的原始信息在Hash表中是否存在，还是更新他在Hash表中的统计数据，都需要基于这两个操作进行。

当Hash函数设计较好时，原始信息会被比较均匀的分配到各个表头之后，从而使每次查找、统计的时间降低到"原始信息总数除以表头数组长度"。若原始信息总数与表头数组长度都是O(N)级别且Hash函数分散均匀，几乎不产生冲突，那么每次查找、统计的时间复杂度期望为O(1)。

例如，我们要在一个长度为N的随机整数序列A中统计每个数出现了多少次。当数列A中的值都比较小时，我们可以直接用一个数组计数（建立一个大小等于值域的数组进行统计和映射，其实就是最简单的Hash思想）。

当数列A中的值很大时，我们可以把A进行排序后扫描统计。这里我们换一种思路，尝试一下Hash表的作法。设计Hash函数为H(x)=(x mod P)+1,其中P是一个比较大的质数，但不超过N。显然，这个Hash函数把数列A分成P类，我们可以依次考虑数列中的每个数A[i],定位到Head[H(A[i])]这个表头所指的链表。如果该链表中不包含A[i],我们就在表头后插入一个新节点A[i],并在节点上记录A[i]出现了1次，否则我们就直接找到已经存在的A[i]节点将其出现次数加1。因为整数序列A是随机的，所以最终所有的A[i]会比较均匀地分散在各个表头之后，整个算法的时间复杂度可以近似达到O(N)。

上面的例子是一个非常简单Hash表的直观应用。对于非随机的数列，我们可以设计更好的Hash函数来保证其时间复杂度。同样地，如果我们需要维护的是比大整数复杂得多的信息的某些性质（如是否存在、出现次数等），也可以用Hash表来解决。

字符串Hash

    下面介绍的字符串Hash函数把一个任意长度的字符串映射成一个非负数整数，并且其冲突概率几乎为0。
    取一固定值P，把字符串看做P进制数，并分配一个大于0的数值，代表每种字符。一般来说，我们分配的数值都远小于P。例如，对于小写字母构成的字符串，可以令a=1,b=2,...,z=26。取一固定值M，求出该P进制数对M的余数，作为该字符串的Hash值。
    一般来说，我们取 P=131 或 P=13331, 此时Hash值产生冲突的概率极低，只要Hash值相同，我们就可以认为原字符串是相等的。通常我们取 M = 2^64, 即直接使用 unsigned long long 类型存储这个Hash值，在计算时不处理算数溢出问题，产生溢出时相当于自动对2^64 取模，这样可以避免低效的取模运算。
    除了在及特殊构造的数据上，上述Hash算法很难产生冲突，一般情况下上述Hash算法完全可以出现在标准解答中。我们还可以多取一些恰当的P和M的值（例如大作质数），多进行几组Hash运算，当结果都相同时才认为原字符串相等，这就更加难以构造出使这个Hash产生错误的数据。
    对字符串的各种操作，都可以直接对P进制数进行算术运算反映到Hash值上。

MiaoPlus

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hash表

Hash表Hash表又称散列表，一般由Hash函数（散列函数）与链表结构共同实现。与离散化思想类似，当我们对若干复杂信息进行统计时，可以用Hash函数把这些复杂信息映射到一个容易维护的值域内。因为值域变简单、范围变小，有可能造成两个不同的原始信息被Hash函数映射为相同的值，所以我们需要处理这种冲突情况。有一种称为"开散列"的解决方法是，建立一个临界表结构，以Hash函数的值域作为表头数组head...
复制链接

扫一扫