哈希表、哈希冲突、以及哈希冲突的解决方案

本文链接：https://blog.csdn.net/2201_75839679/article/details/136988650

本文详细介绍了哈希表的工作原理，重点探讨了哈希冲突的产生及解决策略，包括线性探测、平方探测、随机探测、再哈希法和链地址法。同时，公共溢出区作为另一种解决冲突的方式也被提及，以及各自的优缺点分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

哈希表是一个用于储存”键值对“的的基本数据结构。在C++当中哈希表使用的是哈希函数计算出数组的索引，然后通过索引查找对应索引的值，计算索引的值的过程就被称为”哈希“。

构造哈希函数的最常用的方法就是使用除留余数法：

f(key)%m (m不大于表的长度)

但是通常情况下，在数据比较特殊或则数据量比较多的情况下，就难免会出现不同的输入对应着相同的输出的问题，这就是哈希冲突。

但是，如果输入的是相同的参数，那么输出就一定是相同的，没有任何随机成分，这就是”哈希表“查找的原理了。

但由于通过哈希函数产生的哈希值是有限的(数组大小有限)，而数据可能比多，导致经过哈希函数处理后有不同的学号对应相同的索引值。这时候就产生了哈希冲突 (两个值都需要同一个地址索引位置)。

也就是说，如果某个输入的参数经过哈希函数的计算和表中存在的key值相同，就出现了哈希冲突。

线性探测再散列：

fi(key) = (f(key)+di)%m (di = 1,2,3,……，m-1)

简单解释一下就是如果出现了哈希冲突，就会遍历di列表当中的值，一直找到一个空缺的位置，将值存入。

就比如有一个键值集合为我们有键值集合(12,67,56,16,25,37,22,29,15,47,48，34）表长为12。我们用散列函数f(key)= key%12。当存入前5个{12,67,56,16,25}时，都是没有冲突的散列地址，直接存入:

下标	0	1	2	3	4	5	6	7	8	9	10	11
关键字	12	25			16			67	56

但是之后加入48之后就f(key)= key%12 = 0 就与0 所在的位置冲突了，所以就通过线性再探测，di = 1时为1，这时还是冲突，所以只能继续探测di+1,找到值为2，没有冲突，直接存入这个位置。

缺点：

举个例子就是

当使用线性探测法来解决哈希冲突时，可能会出现聚集现象。假设我们有一个大小为10的哈希表，并使用线性探测法来处理哈希冲突。

现在，我们插入一系列元素：

在这个例子中，我们会发现，由于使用了线性探测法，发生冲突时我们只是简单地往后探测，导致连续的位置都被占用了，形成了一个聚集现象。当往哈希表中插入新的元素时，由于聚集现象的存在，新元素更容易发生新的哈希冲突，需要经过多次探测才能找到合适的位置插入，降低了哈希表的效率。

平方探测法

平方探测法的di增量为 di = 1，-1，4，-4，9，-9……q^2, -q^2 (q<=m/2)。

这种探测就有效的避免了聚集现象，但是可能不能完全探测到哈希表上的所有存储单元。
随机探测法

随机探测法是解决哈希冲突的一种方法，它也属于开放寻址法的一种。与线性探测法和平方探测法不同，随机探测法在解决冲突时并不遵循固定的探测序列，而是通过随机选择下一个位置来插入元素。

具体来说，当发生哈希冲突时，随机探测法会在哈希表中随机选择一个位置进行探测，如果该位置已经被占用，则继续随机选择下一个位置，直到找到一个空闲的位置插入元素。这样可以避免聚集现象，因为每次探测的位置都是随机选择的，不会形成连续的聚集。

优点：能够有效地减少哈希冲突，并且不容易受到特定数据分布的影响，因为每次探测都是随机的。

缺点：实现起来可能比较复杂，需要额外的随机数生成器来确定下一个探测位置，而且在实际应用中可能会引入一定的性能开销。

再哈希法

再哈希法（也称为双重散列）是一种解决哈希冲突的方法，它不同于开放寻址法中的线性探测、平方探测和随机探测，而是利用多个哈希函数来解决冲突。

具体来说，当发生哈希冲突时，再哈希法会使用第二个哈希函数来计算一个增量，然后将这个增量加到当前位置，得到下一个探测位置。如果在这个位置上还有冲突，就再次应用第二个哈希函数来计算增量，直到找到一个空闲位置插入元素。

再哈希法的优势在于可以通过多个哈希函数的组合减少哈希冲突的概率，因为即使两个关键字在第一个哈希函数下产生了相同的哈希值，但在第二个哈希函数下可能会有所不同，从而找到不同的探测位置。这样可以减少聚集现象，提高哈希表的性能。