hash冲突处理

最新推荐文章于 2023-10-10 16:08:01 发布

自找苦吃，自得其乐

最新推荐文章于 2023-10-10 16:08:01 发布

阅读量461

点赞数

本文链接：https://blog.csdn.net/tengdazhang770960436/article/details/102408926

版权

通过构造性能良好的hash函数可以 减少hash冲突，但是 不可能完全避免冲突，因此解决hash冲突是hash算法的另一个关键问题。创建hash表和查找hash表都会遇到冲突，两种情况下解决冲突的方法应该一致。下面以创建hash表为例，说明如何构造性能良好的hash函数以及解决冲突的方法，常用的解决冲突的方法包括四种：

1.构造性能良好的hash函数

实际造表时，采用何种构造哈希函数的方法取决于建表的关键字集合的情况(包括关键字的范围和形态)，以及哈希表长度（哈希地址范围），总的原则是使产生冲突的可能性降到尽可能地小。

1.直接寻址法

取keyword或keyword的某个线性函数值为散列地址。即H(key)=key或H(key) = a•key + b，当中a和b为常数（这样的散列函数叫做自身函数）

使用场景：

地址集合的大小 = = 关键字集合的大小

2.数字分析法

数字分析法就是找出数字的规律，尽可能利用这些数据来构造冲突几率较低的散列地址。

比如一组员工的出生年月日，这时我们发现出生年月日的前几位数字大体同样，这种话，出现冲突的几率就会非常大，可是我们发现年月日的后几位表示月份和详细日期的数字区别非常大，假设用后面的数字来构成散列地址，则冲突的几率会明显减少。

使用场景：

能预先估计出全体关键字的每一位上各种数字出现的频度。

3.平方取中法

H(key)=key*key

取keyword平方后的中间几位作为散列地址，这种方法的原理是通过取平方扩大差别，平方值的中间几位和这个数的每一位都相关，则对不同的关键字得到的哈希函数值不易产生冲突，由此产生的哈希地址也较为均匀。

哈希函数 H(key)=“key2的中间几位”因为这种方法的原理是通过取平方扩大差别，平方值的中间几位和这个数的每一位都相关，则对不同的关键字得到的哈希函数值不易产生冲突，由此产生的哈希地址也较为均匀。

使用场景：

关键字中的每一位都有某些数字重复出现频度很高的现象。

4.折叠法

将keyword切割成位数同样的几部分，最后一部分位数能够不同，然后取这几部分的叠加和（去除进位）作为散列地址。

使用场景：

关键字的数字位数特别多。

5.随机数法

选择一随机函数，取keyword的随机值作为散列地址，通经常使用于keyword长度不同的场合。

设定哈希函数为:H(key) = Random(key)其中，Random 为伪随机函数

使用场景：

对长度不等的关键字构造哈希函数。

6.除留余数法

取keyword被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p, p<=m。不仅能够对keyword直接取模，也可在折叠、平方取中等运算之后取模。对p的选择非常重要，p取不大于表长且最接近表长m素数时效果最好，且p最好取1.1n～1.7n之间的一个素数（n为存在的数据元素个数）

使用场景：

够对keyword直接取模，也可在折叠、平方取中等运算之后取模。

7.字符串数字哈希法

在很都情况下关键字是字符串，因此这样对字符串设计Hash函数是一个需要讨论的问题。下列函数是取字符串前10个字符来设计的哈希函数

使用场景：

keyword为字符串的情况

hash函数的选择

实际应用中应根据具体情况，灵活采用不同的方法，并用实际数据测试它的性能，以便做出正确判定。通常情况下应该考虑以下5个因素：

1.计算哈希函数所需时间（简单）
2.关键字的长度
3.哈希表大小
4.关键字分布情况
5.记录查找频率

2.hash冲突解决办法

1.开放地址法：再散列法

这种方法又称为再散列法，其基本思想是：当关键字key的哈希地址p=H(key)出现冲突时，以p为基础，产生另一个hash地址p1，如果p1仍然冲突，再以p为基础产生另一个hash地址p2,…，直到找到一个不冲突的hash地址pi，将相应元素存入其中。这种方法有一个通用的再散列函数形式：

Hi=（H(key) + di）% m i=1,2,…,n

其中H(key)为hash函数，m为表长，di为增量序列增量的取值方式不同，相应的再散列方式也不同，主要有以下3种：

1.线性探测再散列

di=1，2，3，…，m-1

这种方法的特点是：冲突发生时，顺序查看表中下一单元，直到找出一个空单元或查遍全表。

优点：只要当前数组还有空间就一定能找到存储位置，查找仔细。

缺点：遍历速度慢。

2.二次探测再散列

di=1*1, -1*1, 2*2，-2*2，...k*k，-k*k

这种方法的特点是：冲突发生时，在表的左右进行跳跃式探测，比较灵活，查找速度慢，但是可能出现找不到位置的情况。

3.伪随机探测再散列

di=伪随机数序列。

具体实现时，应建立一个伪随机数发生器，（如i=(i+p) % m），并给定一个随机数做起点。

例如，已知哈希表长度m=11，哈希函数为：H（key）= key % 11，则H（47）=3，H（26）=4，H（60）=5，假设下一个关键字为69，则H（69）=3，与47冲突。

如果用线性探测再散列处理冲突，下一个哈希地址为H1=（3 + 1）% 11 = 4，仍然冲突，再找下一个哈希地址为H2=（3 + 2）% 11 = 5，还是冲突，继续找下一个哈希地址为H3=（3 + 3）% 11 = 6，此时不再冲突，将69填入5号单元。

如果用二次探测再散列处理冲突，下一个哈希地址为H1=（3 + 12）% 11 = 4，仍然冲突，再找下一个哈希地址为H2=（3 - 12）% 11 = 2，此时不再冲突，将69填入2号单元。

如果用伪随机探测再散列处理冲突，且伪随机数序列为：2，5，9，………，则下一个哈希地址为H1=（3 + 2）% 11 = 5，仍然冲突，再找下一个哈希地址为H2=（3 + 5）% 11 = 8，此时不再冲突，将69填入8号单元。

2.再hash法

这种方法是同时构造多个不同的哈希函数：

Hi=RH1（key） i=1，2，…，k

当哈希地址Hi=RH1（key）发生冲突时，再计算Hi=RH2（key）……，直到冲突不再产生。这种方法【不易产生聚集】，但【增加了计算时间】。这里需要注意的是，本来hash算法的冲突概率理论上应该很低，那么再经过多个hash算法处理之后冲突的概率应该更低。

3.链地址法

这种方法的基本思想是将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行【插入和删除】的情况。

4.建立公共溢出区

这种方法的基本思想是：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表。

由于通过哈希函数计算后的地址重复几率很小，所以把重复部分用顺序表来存放，查找时遍历这个公共溢出区的顺序表，效率会更高。

优缺点比较

开放散列：拉链法（针对桶链结构）

拉链法之所以叫开放散列是因为是数组+链表结构，它的结构是一种开放的结构，因为链表可以无限的扩张，并不是只是数组，而自是数组的话它的结构是封闭的。

优点：

1.对于记录总数频繁可变的情况，处理的比较好（也就是避免了动态调整的开销，动态调整开销很大，会让某一次操作时间飙升）

2.由于记录存储在结点中，而结点是动态分配，不会造成内存的浪费，所以尤其适合那种记录本身尺寸（size）很大的情况，因为此时指针的开销可以忽略不计了

3.删除记录时，比较方便，直接通过指针操作即可

缺点：

1.存储的记录是随机分布在内存中的，这样在查询记录时，相比结构紧凑的数据类型（比如数组），哈希表的跳转访问会带来额外的时间开销

2.如果所有的 key-value 对是可以提前预知，并之后不会发生变化时（即不允许插入和删除），可以人为创建一个不会产生冲突的完美哈希函数（perfect hash function），此时封闭散列的性能将远高于开放散列

3.由于使用指针，记录不容易进行序列化（serialize）操作

适用场景：

记录总数变动很大，记录本身占用内存很大，频繁增加删除。

封闭散列：开放定址法

开放定址法之所以叫做封闭散列是因为它只是一个数组，这个结构是封闭的。

优点：

1.记录更容易进行序列化（serialize）操作

2.如果记录总数可以预知，可以创建完美哈希函数，此时处理数据的效率是非常高的

缺点：

1.存储记录的数目不能超过桶数组的长度，如果超过就需要扩容，而扩容会导致某次操作的时间成本飙升，这在实时或者交互式应用中可能会是一个严重的缺陷

2.使用探测序列，有可能其计算的时间成本过高，导致哈希表的处理性能降低

3.由于记录是存放在桶数组中的，而桶数组必然存在空槽，所以当记录本身尺寸（size）很大并且记录总数规模很大时，空槽占用的空间会导致明显的内存浪费

4.删除记录时，比较麻烦。比如需要删除记录a，记录b是在a之后插入桶数组的，但是和记录a有冲突，是通过探测序列再次跳转找到的地址，所以如果直接删除a，a的位置变为空槽，而空槽是查询记录失败的终止条件，这样会导致记录b在a的位置重新插入数据前不可见，所以不能直接删除a，而是设置删除标记。这就需要额外的空间和操作。