散列(hash)

散列(hash)


将元素通过一个函数转换为整数,使得该整数可以尽量唯一地代表这个元素

  • 把转换函数称为:散列函数H
  • 也就是说,如果元素在转换前为key,那么转换后就是一个整数H(key)

常用散列函数

  • 直接定址法
  • 平方取中法
  • 除留余数法

直接定址法 -(最常见的散列应用)

  • 恒等变换 令 H(key)=key
  • 线性变换 令 H(key)=a*key+b

平方取中法 -(很少用)

  • 取key的平方的中间的若干位作为hash值

除留余数法

把key除一个数mod得到的余数作为hash值,即

H(KEY) = KEY % MOD
  • 通过这个散列函数,可以把很大的数转换为不超过mod的整数
  • 这样就可以把它作为行的数组下标(表长TSize必须不小于mod,否则会产生越界)
  • 显然,当mod是素数时,H(key)能尽可能覆盖[0,mod)范围内的每一个数
  • 若要将发生冲突现象的频率降至最低,mod最好是小于哈希表长的最大素数

解决哈希表冲突的方法:

线性探查法(Linear Probing)

  • 若H(key)已被占,则将hash值不断+1,直到找到一个空位置,或是发现表中所有位置都被使用。
  • 若探查过程中规超过了表长,则回到表头继续循环
  • 显然,这个做法容易导致扎堆,即表中若干个连续位置都被使用,这在一定程度上会降低效率

    平方探查法(Quadratic Probing)

  • 为了尽可能避免扎堆现象,当H(key)被占时,探查:H(key)+12、H(key)-12、H(key)+22、H(key)-22、H(key)+32

  • 若探查过程中超过了表长TSize,则将H(key)+k2对表长取模
  • 若探查过程中出现H(key)-k2<0的情况(假设表的首位是0),
    则将(H((key)-k2) % TSize + TSize) % TSize作为结果
    (等价于将H((key)-k2不断加上TSize直到出现第一个非负数)
  • 若像避免负数的麻烦,可以只进行正向的平方探查
  • 可以证明,若k在[0,TSize)范围内都无法找到位置,那么当k>=TSize时,也一定无法找到位置

链地址法(拉链法)

  • 链地址法不计算新的hash值,而是把所有H(key)相同的key用单链表连接起来
  • 这样可以设定一个数组Link,范围是Link[0]~Link[mod]
  • 其中Link[h]存放H(key)=h的一条单链表
  • 此时就可以遍历这条单链表来寻找所有H(key)=h的key

一般用标准模板库中的map来直接使用hash的功能(C++11 以后可以用unordered_map,速度更快)


例题:

给出N个字符串(由恰好三位大写字母组成),再给出M个查询字符串,问每个查询字符串在N个字符中出现的次数。
关键在如何写字符串哈希函数:

  • 不妨把A~Z视为0~25,这样把26个大写字母对应到了二十六进制中
  • 然后,按照二十六进制转十进制的思路。
    id = id * 26 + ( S[i] - ‘A’)
  • 注意:转换成的整数最大是26len-1,其中len为字符串长度
  • 若有小写字母,可以增大进制数至52
    若又出现了数字,可以继续增大进制数至62
  • 若保证字符串末尾是个数字,可以把前面的英文字母转换成整数,再将末尾的数字直接拼接上去。如“BCD4”,现将”BCD”转换成731,然后拼上4称为7314即可

#include<cstdio>
using namespace std;

const int maxn=100;
char S[maxn][5],temp[5];
int hashTable[26*26*26+10];
//hash函数,将字符串S转换为整数 
int hashFunc(char S[],int len)
{
    int id=0;
    for(int i=0;i<len;i++)
        id = id * 26 + ( S[i] - 'A' );
    return id;
}

int main()
{
    int n,m;
    scanf("%d%d",&n,&m);
    for(int i=0;i<n;i++){
        scanf("%s",S[i]);
        int id=hashFunc(S[i],3);        //将字符串S[i]转换为整数
        hashTable[id]++;                //该字符串出现的次数+1 
    }
    for(int i=0;i<m;i++){
        scanf("%s",temp);
        int id=hashFunc(temp,3);        //将字符串temp转换为整数
        printf("%d\n",hashTable[id]);   //输出该字符串的出现次数 
    } 
    return 0;
}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值