散列(hash)
将元素通过一个函数转换为整数,使得该整数可以尽量唯一地代表这个元素
- 把转换函数称为:散列函数H
- 也就是说,如果元素在转换前为key,那么转换后就是一个整数H(key)
常用散列函数
- 直接定址法
- 平方取中法
- 除留余数法
直接定址法 -(最常见的散列应用)
- 恒等变换 令 H(key)=key
- 线性变换 令
H(key)=a*key+b
平方取中法 -(很少用)
- 取key的平方的中间的若干位作为hash值
除留余数法
把key除一个数mod得到的余数作为hash值,即
H(KEY) = KEY % MOD
- 通过这个散列函数,可以把很大的数转换为不超过mod的整数
- 这样就可以把它作为行的数组下标(表长TSize必须不小于mod,否则会产生越界)
- 显然,当mod是素数时,H(key)能尽可能覆盖[0,mod)范围内的每一个数
- 若要将发生冲突现象的频率降至最低,mod最好是小于哈希表长的最大素数
解决哈希表冲突的方法:
线性探查法(Linear Probing)
- 若H(key)已被占,则将hash值不断+1,直到找到一个空位置,或是发现表中所有位置都被使用。
- 若探查过程中规超过了表长,则回到表头继续循环
显然,这个做法容易导致扎堆,即表中若干个连续位置都被使用,这在一定程度上会降低效率
平方探查法(Quadratic Probing)
为了尽可能避免扎堆现象,当H(key)被占时,探查:H(key)+12、H(key)-12、H(key)+22、H(key)-22、H(key)+32…
- 若探查过程中超过了表长TSize,则将H(key)+k2对表长取模
- 若探查过程中出现H(key)-k2<0的情况(假设表的首位是0),
则将(H((key)-k2) % TSize + TSize) % TSize作为结果
(等价于将H((key)-k2不断加上TSize直到出现第一个非负数) - 若像避免负数的麻烦,可以只进行正向的平方探查
- 可以证明,若k在[0,TSize)范围内都无法找到位置,那么当k>=TSize时,也一定无法找到位置
链地址法(拉链法)
- 链地址法不计算新的hash值,而是把所有H(key)相同的key用单链表连接起来
- 这样可以设定一个数组Link,范围是Link[0]~Link[mod]
- 其中Link[h]存放H(key)=h的一条单链表
- 此时就可以遍历这条单链表来寻找所有H(key)=h的key
一般用标准模板库中的map来直接使用hash的功能(C++11 以后可以用unordered_map,速度更快)
例题:
给出N个字符串(由恰好三位大写字母组成),再给出M个查询字符串,问每个查询字符串在N个字符中出现的次数。
关键在如何写字符串哈希函数:
- 不妨把A~Z视为0~25,这样把26个大写字母对应到了二十六进制中
- 然后,按照二十六进制转十进制的思路。
id = id * 26 + ( S[i] - ‘A’)- 注意:转换成的整数最大是26len-1,其中len为字符串长度
- 若有小写字母,可以增大进制数至52
若又出现了数字,可以继续增大进制数至62- 若保证字符串末尾是个数字,可以把前面的英文字母转换成整数,再将末尾的数字直接拼接上去。如“BCD4”,现将”BCD”转换成731,然后拼上4称为7314即可
#include<cstdio>
using namespace std;
const int maxn=100;
char S[maxn][5],temp[5];
int hashTable[26*26*26+10];
//hash函数,将字符串S转换为整数
int hashFunc(char S[],int len)
{
int id=0;
for(int i=0;i<len;i++)
id = id * 26 + ( S[i] - 'A' );
return id;
}
int main()
{
int n,m;
scanf("%d%d",&n,&m);
for(int i=0;i<n;i++){
scanf("%s",S[i]);
int id=hashFunc(S[i],3); //将字符串S[i]转换为整数
hashTable[id]++; //该字符串出现的次数+1
}
for(int i=0;i<m;i++){
scanf("%s",temp);
int id=hashFunc(temp,3); //将字符串temp转换为整数
printf("%d\n",hashTable[id]); //输出该字符串的出现次数
}
return 0;
}