散列函数的构造方法

Kegi_

于 2024-02-10 21:29:22 发布

阅读量812

点赞数 14

分类专栏：数据结构与算法C 文章标签：散列表散列函数构造方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kegi_/article/details/136092722

版权

数据结构与算法C 专栏收录该内容

59 篇文章 1 订阅

订阅专栏

不管做什么事要达到最优都不容易，既要付出尽可能的少，又要得到最大化的多。那么什么才算是好的散列函数,有两个可供参考的原则。

1．计算简单:
你说设计一个算法可以保证所有的关键字都不会产生冲突，但是这个算法需要很复杂的计算，会耗费很多时间，这对于需要频繁地查找来说，就会大大降低查找的效率了。因此散列函数的计算时间不应该超过其他查找技术与关键字比较的时间。
2．散列地址分布均匀:
我们刚才也提到冲突带来的问题，最好的办法就是尽量让散列地址均匀地分布在存储空间中，这样可以保证存储空间的有效利用，并减少为处理冲突而耗费的时间。
接下来我们就要介绍几种常用的散列函数构造方法。估计设计这些方法的前辈们当年可能是从事间谍工作，因为这些方法都是将原来数字按某种规律变成另一个数字而已。

直接定址法
如果我们现在要对0～100岁的人口数字统计表，那么我们对年龄这个关键字就可以直接用年龄的数字作为地址。此时f(key)=key。

地址	年龄	人数
0	0	500万
1	1	600万
2	2	450万
......	......	......

如果我们现在要统计的是80后出生年份的人口数，那么我们对出生年份这个关键字可以用年份减去1980来作为地址。此时f(key)=key-1980。

地址	出生年份	人数
0	1980	1500万
1	1981	1600万
2	1982	1300万
……	……	……
2000	2000	800万
……	……	……

也就是说，我们可以取关键字的某个线性函数值为散列地址，即
f(key)=a×key+b（a、b为常数）
这样的散列函数优点就是简单、均匀，也不会产生冲突，但问题是这需要事先知道关键字的分布情况，适合查找表较小且连续的情况。由于这样的限制，在现实应用中，此方法虽然简单，但却并不常用。

数字分析法

如果我们的关键字是位数较多的数字，比如我们的11位手机号“130xxxx1234”，其中前三位是接入号，一般对应不同运营商公司的子品牌，如130是联通如意通、136是移动神州行、153是电信等；中间四位是HLR识别号，表示用户号的归属地；后四位才是真正的用户号

若我们现在要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的。那么我们选择后面的四位成为散列地址就是不错的选择。如果这样的抽取工作还是容易出现冲突问题，还可以对抽取出来的数字再进行反转（如1234改成4321）、右环位移（如1234改成4123）、左环位移、甚至前两数与后两数叠加（如1234改成12+34=46）等方法。总的目的就是为了提供一个散列函数，能够合理地将关键字分配到散列表的各位置。

这里我们提到了一个关键词——抽取。抽取方法是使用关键字的一部分来计算散列存储位置的方法，这在散列函数中是常常用到的手段。
数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀，就可以考虑用这个方法。

平方取中法
这个方法计算很简单，假设关键字是1234，那么它的平方就是1522756，再抽取中间的3位就是227，用做散列地址。

再比如关键字是4321，那么它的平方就是18671041，抽取中间的3位就可以是671，也可以是710，用做散列地址。

平方取中法比较适合于不知道关键字的分布，而位数又不是很大的情况。

折叠法

折叠法是将关键字从左到右分割成位数相等的几部分（注意最后一部分位数不够时可以短些），然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。

比如我们的关键字是9876543210，散列表表长为三位，我们将它分为四组，987|654|321|0，然后将它们叠加求和987+654+321+0=1962，再求后3位得到散列地址为962。
有时可能这还不能够保证分布均匀，不妨从一端向另一端来回折叠后对齐相加。比如我们将987和321反转，再与654和0相加，变成789+654+123+0=1566，此时散列地址为566。

折叠法事先不需要知道关键字的分布，适合关键字位数较多的情况。

除留余数法
此方法为最常用的构造散列函数方法。对于散列表长为m的散列函数公式为：
f(key)=key mod p(p≤m)
mod是取模（求余数）的意思。事实上，这方法不仅可以对关键字直接取模，也可在折叠、平方取中后再取模。

很显然，本方法的关键就在于选择合适的p，p如果选得不好，就可能会容易产生同义词。

不过这也是存在冲突的可能的，因为12=2×6=3×4。如果关键字中有像18(3×6)、30(5×6)、42(7×6)等数字，它们的余数都为6，这就和78所对应的下标位置冲突了。

因此根据前辈们的经验，若散列表表长为m，通常p为小于或等于表长（最好接近m）的最小质数或不包含小于20质因子的合数。

随机数法

选择一个随机数，取关键字的随机函数值为它的散列地址。也就是f(key)=random(key)。这里random是随机函数。当关键字的长度不等时，采用这个方法构造散列函数是比较合适的。
有同学问，那如果关键字是字符串如何处理:无论是英文字符，还是中文字符，也包括各种各样的符号，它们都可以转化为某种数字来对待，比如ASCII码或者Unicode码等，因此也就可以使用上面的这些方法。

总之，现实中，应该视不同的情况采用不同的散列函数。我们只能给出一些考虑的因素来提供参考：

1.计算散列地址所需的时间。
2.关键字的长度。
3.散列表的大小。
4.关键字的分布情况。
5.记录查找的频率。

综合这些因素，才能决策选择哪种散列函数更合适。

关注

14
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
散列函数的构造方法

如果我们的关键字是位数较多的数字，比如我们的11位手机号“130xxxx1234”，其中前三位是接入号，一般对应不同运营商公司的子品牌，如130是联通如意通、136是移动神州行、153是电信等；比如我们的关键字是9876543210，散列表表长为三位，我们将它分为四组，987|654|321|0，然后将它们叠加求和987+654+321+0=1962，再求后3位得到散列地址为962。再比如关键字是4321，那么它的平方就是18671041，抽取中间的3位就可以是671，也可以是710，用做散列地址。
复制链接

扫一扫

专栏目录

Kegi_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

366: 原创

1万+: 周排名

5403: 总排名

16万+: 访问

: 等级

6998: 积分

2426: 粉丝

3335: 获赞

10: 评论

2729: 收藏

私信

关注

热门文章

分类专栏

最新评论

VM及VM子系统
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
高斯算法的时间复杂度为什么不是O(3)，而是O(1)
CSDN-Ada助手: 恭喜您写了第5篇博客！标题看起来很有吸引力。关于高斯算法的时间复杂度，您提出的观点确实很有意思。虽然我对该算法不是很熟悉，但是我认为您的解释可能是正确的。不过，我想对这个问题提出一些建议，希望能够帮助您进一步完善您的博客。如果可能的话，您可以考虑添加一些具体的例子或者数学推导，以更加深入地解释为什么高斯算法的时间复杂度是O(1)。此外，您还可以探讨一下高斯算法在实际应用中的优势和限制。期待您的下一篇博客，继续保持创作！
关于如何编写一个程序的27个基本相关问题
CSDN-Ada助手: 恭喜您写了第12篇博客！标题“关于如何编写一个程序的27个基本相关问题”非常吸引人。您的博客内容一定帮助了许多编程初学者解决问题。接下来，我建议您可以考虑分享一些实际案例或者编程经验，以帮助读者更好地理解和运用这27个基本相关问题。继续努力创作，期待您的下一篇博客！
常见的时间复杂度计算与大小比较
CSDN-Ada助手: 恭喜您撰写了关于常见时间复杂度计算与大小比较的博客！持续创作是非常难得的品质，您的努力和热情值得称赞。在文章中，您提到了常见的时间复杂度计算方法，这对于理解算法的性能和效率非常重要。作为下一步的创作建议，我想提醒您可以进一步拓展这个话题，例如深入探讨各种常见算法的时间复杂度，并与之进行比较。此外，您也可以分享一些优化算法的思考和实践经验，以帮助读者更好地理解如何在实际应用中选择和设计高效的算法。再次恭喜您的成就，期待看到更多关于算法与数据结构的精彩文章！
线性表的抽象数据类型定义
CSDN-Ada助手: 恭喜您写了第7篇博客，标题为“线性表的抽象数据类型定义”！阅读了您的博文，我感觉您对线性表的抽象数据类型有着深入的理解。您清晰地表达了线性表的定义，并且提供了有用的示例和解释。不仅如此，您还使用了简洁明了的语言，使得内容易于理解。我真诚地希望您能继续保持这种创作的热情和努力，为读者们带来更多有关数据结构和算法的有益内容。作为下一步的创作建议，或许您可以考虑深入探讨线性表的各种操作及其复杂度分析，这将进一步拓宽读者的知识面，促进更深层次的学习。再次恭喜您，期待您未来更多精彩的博文！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。