散列（哈希）

thdwx

已于 2022-09-24 19:55:34 修改

阅读量205

点赞数

分类专栏： C/C++ 文章标签：哈希算法算法

于 2022-09-24 19:27:27 首次发布

本文链接：https://blog.csdn.net/thdwx/article/details/127029028

版权

C/C++ 专栏收录该内容

71 篇文章

订阅专栏

本文深入探讨了散列表的工作原理，强调了散列函数选择的重要性。理想的散列函数应确保关键字在散列表中均匀分布，同时保持计算效率。通过三个具体的字符串散列函数实例，分析了它们的优缺点。此外，还提到了装填因子的概念，以及处理冲突的两种主要方法——分离链接法和开放定址法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理想的散列表是一个大小固定的数组，数组中的关键字可以是整型、字符串或是结构体等。我们把表的大小记为TableSize，通常是让表的下标从0到TableSize-1变化。

将每个关键字映射到0到TableSize-1的区间中的每个数，并放在对应的下标处，这个映射就叫作散列函数。理想情况下的散列函数应该运算简单，并且将不同的关键字映射到不同的下标处，不过，这不总是可能的。所以，当两个关键字映射到同一值时（称为冲突），就需要解决这个冲突。

散列的大小TableSize尽量为素数，这是因为如果使用有模运算的散列函数，那么当TableSize为素数时，就能尽量的避免一些冲突，例如，当关键字都以0结尾，而表的大小是10时，那么模运算就会将它们都散列到同一个值。但是如果表的大小为11，那么就可以解决一些冲突。

散列函数的选择要保证两点：

1.简单、快速、计算方便

2.要使关键字尽量的分配均匀

不同的散列函数产生的效果是不尽相同的，下面以字符串关键字来说明散列函数对散列结果的影响，字符串的插入有三种不同的方法：

1.将字符串所有位的ASCII码值加起来再模以散列表的大小。当表的大小较小时，这个函数能够快速地算出结果，但是当表很大，例如TableSize=10007时，这个散列函数的效果就会大打折扣。假设字符串都为英文单词，那么字符串就不会过长，并且char类型的最大值为127，那么即使15*127=1905，对于10007来说也仅仅只是1/5，那么散列表将会有大量的空间是浪费的，所以这个函数不再是一个好的散列函数。

2.如果只考虑单词的前三个字符（如果单词长度>=3），将散列函数设为

$(key[0]+27*key[1]+729*key[2]) % TableSize$

那么关键字就可以在10007的空间内均匀分布，但不幸的是，单词的字母并不是随机分布的，所以单词的前三个字符的组合并没有想象的那么多，这也就造成了这个散列函数并不能将单词均匀的分配到表中，因为有许多单词的前三个字母是相同的。

3.最后尝试一个散列函数

$(\sum_{i=0}^{KeySize-1}key[KeySize-i-1]*32^{i})%TableSize$

这个散列函数涉及单词中的所有字符，一般可以分布的很好，并且能将结果限制在一定的范围内。这个函数可以通过下面的代码实现：

char* key;
int sum=0;
while(*key!=0){
    sum+=(sum<<5)+*key++;
}
HashVal=sum%TableSize;

以上例子说明散列函数的选择是非常重要的，在设计散列函数时一定要记住对散列函数的要求，要尽可能的使关键字分布均匀，并且函数要尽可能地简洁，而对于无法避免的冲突，则有两种解决冲突的方法：分离链接法、开放定址法。

装填因子：

装填因子λ是指散列表中关键字的个数与散列表大小的比值。