哈希表基础理论

最新推荐文章于 2024-09-17 13:15:00 发布

chy1984

最新推荐文章于 2024-09-17 13:15:00 发布

阅读量308

点赞数 1

分类专栏：开发杂项总结文章标签：哈希散列哈希算法哈希函数哈希冲突

本文链接：https://blog.csdn.net/chy_18883701161/article/details/121068051

版权

开发杂项总结专栏收录该内容

7 篇文章 1 订阅

订阅专栏

哈希表中的常见概念

桶 bucket：哈希表中存储元素的位置叫做桶，数组中的一个位置即一个 bucket。

哈希表的容量 capacity：即桶的个数、数组长度。

哈希冲突：又叫做哈希碰撞，多个元素计算得到的哈希地址相同。哈希冲突是否会导致一个bucket中存储多个元素，这要看哈希冲突的解决方式，比如链表法则会在一个bucket中以链表形式存储多个哈希地址相同的元素，开放地址法则不会，会重新寻找新的空桶（哈希地址）。

重哈希 rehashing：也叫作再散列，哈希表存储的元素数量超过阈值时，哈希表自动扩容，重新分配存储位置，将原有元素都复制到新哈希表中。重哈希对性能影响大，应该避免频繁重哈希。

哈希函数常见的构建方式（哈希算法）

哈希函数（hash function）的构建原则

便于计算，计算不能太复杂，以减少计算的时间开销。
计算得到的地址分布均匀，即对任一关键字key，f(key) 对应不同地址的概率相等，以尽可能减少冲突。

说明：参与计算的关键字key不是对象本身，而是对象的哈希值 obj.hashCode()，哈希函数 hash(key) 是对哈希值（整数）做计算、处理。

1、除留余数法

hash(key) = key % p

p<= 哈希表容量n。优点是可以使计算得到的哈希地址比较均匀、分散，HashMap使用的即除留余数法的变种。

2、平方取中法
先求出关键字key的平方值，然后按需取平方值的中间几位作为哈希地址。比如哈希表长度1000，数组下标都是三位数000~999，则取平方值的中间3位。取中的原因：平方后中间几位和关键字中每一位都相关，不同关键字会以较高的概率产生不同的哈希地址。

3、分段叠加法
按哈希表地址位数将关键字key分成位数相等的几部分，最后一部分较短的可以舍弃，然后将这些分段对齐相加，舍弃多余的高进位，即得到对应的哈希地址。叠加时可以直接叠加，也可以做一些特殊操作，比如奇数段正序、偶数段倒序。

示例：key=12360324711202065，哈希表长度为1000，数组下标都是三位数 000, 001…999，所以应该把关键字分成3位一段，舍弃最低的两位65

		1   2   3                    1   2   3
		6   0   3                    3   0   6
		2   4   7                    2   4   7
		1   1   2                    2   1   1
	+   0   2   0                +   0   2   0
	————————————————            ——————————————————
    1   1   0   5                	 9   0   7

		 特殊操作                      直接叠加