字符串Hash的原理与应用

字符串Hash无论是在ACM竞赛中还是在工程中都有着广泛的应用,所以很有必要掌握好它的用法。主要分为两个部

分:Hash映射冲突处理。而本文主要来详细讲解Hash映射的方法及应用,下篇文章将会介绍如何处理冲突。

 

对于字符串Hash来说都是把字符串映射为一个整数,这一步是通过Hash函数来进行的。常用的Hash函数具体有:

SDBMHash,RSHash,JSHash,ELFHash,BKDRHash,DJBHash等等。接下来只详细介绍ELFHash函数的原理

及应用。

 

ELFHash函数的代码如下

  1. unsigned int ELFhash(char *str)  
  2. {  
  3.     unsigned int h = 0;  
  4.     unsigned int x;  
  5.     while(*str)  
  6.     {  
  7.         h = (h << 4) + *str++;  
  8.         x = h & 0xF0000000L;  
  9.         if(x)  
  10.         {  
  11.             h ^= x>>24;  
  12.             h &= ~x;  
  13.         }  
  14.     }  
  15.     return h & 0x7FFFFFFF;  
  16. }  

接下来我会详细探讨它的原理。

 

(1)h = (h << 4) + *str++;  把当前的字符的ASCII存入h的低4位。

(2)x = h & 0xF0000000L;    取出h中最高4位,0xF0000000L地代表28~314位是1,其余后28位是0

(3)如果最高4位不为0,那么说明字符多于7个,现在正在存第8个,如果不处理再加下一个字符时,第一个字符会

    被移出,因为1~4位刚刚加入了新字符,所以不能>>28,而是>>24

(4)h &= ~x;                表示把h的高4位清零。

 

题目:http://acm.hdu.edu.cn/showproblem.php?pid=1800

 

题意:给定一些数字,可能有前导零,求这些数字中出现次数最多的数字的次数。

 

代码:

  1. #include <iostream>  
  2. #include <string.h>  
  3. #include <stdio.h>  
  4.   
  5. using namespace std;  
  6. const int N = 1000005;  
  7. const int MOD = 100007;  
  8.   
  9. int hash[N], cnt[N];  
  10.   
  11. unsigned int ELFhash(char *str)  
  12. {  
  13.     unsigned int h = 0;  
  14.     unsigned int x;  
  15.     while(*str)  
  16.     {  
  17.         h = (h << 4) + *str++;  
  18.         x = h & 0xF0000000L;  
  19.         if(x)  
  20.         {  
  21.             h ^= x>>24;  
  22.             h &= ~x;  
  23.         }  
  24.     }  
  25.     return h & 0x7FFFFFFF;  
  26. }  
  27.   
  28. int HashHit(char *str)  
  29. {  
  30.     while(*str == '0') str++;  
  31.     int k = ELFhash(str);  
  32.     int t = k % MOD;  
  33.     while(hash[t] != k && hash[t] != -1)  
  34.         t = (t + 10) % MOD;  
  35.     if(hash[t] == -1)  
  36.     {  
  37.         cnt[t] = 1;  
  38.         hash[t] = k;  
  39.     }  
  40.     else cnt[t]++;  
  41.     return cnt[t];  
  42. }  
  43.   
  44. int main()  
  45. {  
  46.     int n;  
  47.     char str[105];  
  48.     while(scanf("%d", &n)!=EOF)  
  49.     {  
  50.         int ans = 1;  
  51.         memset(hash,-1,sizeof(hash));  
  52.         while(n--)  
  53.         {  
  54.             scanf("%s", str);  
  55.             ans = max(ans, HashHit(str));  
  56.         }  
  57.         printf("%d\n", ans);  
  58.     }  
  59.     return 0;  
  60. }  


 

问题:为什么Hash表的size总是扩展成一个素数?

 

分析:素数可以有效地减少冲突。具体原因如下

     假设Hash表的大小为size,这是一个合数,即有size = a * n,当有Hash值为HashCode = b * n,则

     HashCode取模之后有

 

    

 

     因为是固定不变的,那么HashCode取值就有了种可能,这样显然会增加冲突的概率。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值