理想的散列表是一个大小固定的数组,数组中的关键字可以是整型、字符串或是结构体等。我们把表的大小记为TableSize,通常是让表的下标从0到TableSize-1变化。
将每个关键字映射到0到TableSize-1的区间中的每个数,并放在对应的下标处,这个映射就叫作散列函数。理想情况下的散列函数应该运算简单,并且将不同的关键字映射到不同的下标处,不过,这不总是可能的。所以,当两个关键字映射到同一值时(称为冲突),就需要解决这个冲突。
散列的大小TableSize尽量为素数,这是因为如果使用有模运算的散列函数,那么当TableSize为素数时,就能尽量的避免一些冲突,例如,当关键字都以0结尾,而表的大小是10时,那么模运算就会将它们都散列到同一个值。但是如果表的大小为11,那么就可以解决一些冲突。
散列函数的选择要保证两点:
1.简单、快速、计算方便
2.要使关键字尽量的分配均匀
不同的散列函数产生的效果是不尽相同的,下面以字符串关键字来说明散列函数对散列结果的影响,字符串的插入有三种不同的方法:
1.将字符串所有位的ASCII码值加起来再模以散列表的大小。当表的大小较小时,这个函数能够快速地算出结果,但是当表很大,例如TableSize=10007时,这个散列函数的效果就会大打折扣。假设字符串都为英文单词,那么字符串就不会过长,并且char类型的最大值为127,那么即使15*127=1905,对于10007来说也仅仅只是1/5,那么散列表将会有大量的空间是浪费的,所以这个函数不再是一个好的散列函数。
2.如果只考虑单词的前三个字符(如果单词长度>=3),将散列函数设为
那么关键字就可以在10007的空间内均匀分布,但不幸的是,单词的字母并不是随机分布的,所以单词的前三个字符的组合并没有想象的那么多,这也就造成了这个散列函数并不能将单词均匀的分配到表中,因为有许多单词的前三个字母是相同的。
3.最后尝试一个散列函数
这个散列函数涉及单词中的所有字符,一般可以分布的很好 ,并且能将结果限制在一定的范围内。这个函数可以通过下面的代码实现:
char* key;
int sum=0;
while(*key!=0){
sum+=(sum<<5)+*key++;
}
HashVal=sum%TableSize;
以上例子说明散列函数的选择是非常重要的,在设计散列函数时一定要记住对散列函数的要求,要尽可能的使关键字分布均匀,并且函数要尽可能地简洁,而对于无法避免的冲突,则有两种解决冲突的方法:分离链接法、开放定址法。
装填因子:
装填因子λ是指散列表中关键字的个数与散列表大小的比值。