散列(哈希)

本文深入探讨了散列表的工作原理,强调了散列函数选择的重要性。理想的散列函数应确保关键字在散列表中均匀分布,同时保持计算效率。通过三个具体的字符串散列函数实例,分析了它们的优缺点。此外,还提到了装填因子的概念,以及处理冲突的两种主要方法——分离链接法和开放定址法。
摘要由CSDN通过智能技术生成

理想的散列表是一个大小固定的数组,数组中的关键字可以是整型、字符串或是结构体等。我们把表的大小记为TableSize,通常是让表的下标从0到TableSize-1变化。

将每个关键字映射到0到TableSize-1的区间中的每个数,并放在对应的下标处,这个映射就叫作散列函数。理想情况下的散列函数应该运算简单,并且将不同的关键字映射到不同的下标处,不过,这不总是可能的。所以,当两个关键字映射到同一值时(称为冲突),就需要解决这个冲突。

散列的大小TableSize尽量为素数,这是因为如果使用有模运算的散列函数,那么当TableSize为素数时,就能尽量的避免一些冲突,例如,当关键字都以0结尾,而表的大小是10时,那么模运算就会将它们都散列到同一个值。但是如果表的大小为11,那么就可以解决一些冲突。

散列函数的选择要保证两点:

1.简单、快速、计算方便

2.要使关键字尽量的分配均匀

不同的散列函数产生的效果是不尽相同的,下面以字符串关键字来说明散列函数对散列结果的影响,字符串的插入有三种不同的方法:

1.将字符串所有位的ASCII码值加起来再模以散列表的大小。当表的大小较小时,这个函数能够快速地算出结果,但是当表很大,例如TableSize=10007时,这个散列函数的效果就会大打折扣。假设字符串都为英文单词,那么字符串就不会过长,并且char类型的最大值为127,那么即使15*127=1905,对于10007来说也仅仅只是1/5,那么散列表将会有大量的空间是浪费的,所以这个函数不再是一个好的散列函数。

2.如果只考虑单词的前三个字符(如果单词长度>=3),将散列函数设为

(key[0]+27*key[1]+729*key[2]) % TableSize

那么关键字就可以在10007的空间内均匀分布,但不幸的是,单词的字母并不是随机分布的,所以单词的前三个字符的组合并没有想象的那么多,这也就造成了这个散列函数并不能将单词均匀的分配到表中,因为有许多单词的前三个字母是相同的。

3.最后尝试一个散列函数

(\sum_{i=0}^{KeySize-1}key[KeySize-i-1]*32^{i})%TableSize

这个散列函数涉及单词中的所有字符,一般可以分布的很好 ,并且能将结果限制在一定的范围内。这个函数可以通过下面的代码实现:

char* key;
int sum=0;
while(*key!=0){
    sum+=(sum<<5)+*key++;
}
HashVal=sum%TableSize;

以上例子说明散列函数的选择是非常重要的,在设计散列函数时一定要记住对散列函数的要求,要尽可能的使关键字分布均匀,并且函数要尽可能地简洁,而对于无法避免的冲突,则有两种解决冲突的方法:分离链接法、开放定址法。

装填因子:

装填因子λ是指散列表中关键字的个数与散列表大小的比值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值