字符串散列

字符串散列(string hash,又称字符串哈希)是指在字符串和数值之间建立对应关系,相当于为字符串创建“指纹”。存在非常多的散列算法,下面介绍通过模运算实现的一种简易散列算法。

给定一个字符串 S = s 1 s 2 … s n S=s_1s_2 \dots s_n S=s1s2sn,选定一个基数 b a s e base base 和模数 m o d mod mod (编程竞赛中,一般选择小于 2 32 2^{32} 232 的较大素数),令 h [ i ] h[i] h[i] 表示前 i i i 个字符所对应的数值,且令 h [ 0 ] = 0 h[0]=0 h[0]=0,可以按照如下方法将此字符串转换为一个整数:

h [ i ] = h [ i − 1 ] ∗ b a s e + s i h[i]=h[i-1]*base+s_i h[i]=h[i1]base+si

由于 h [ i ] h[i] h[i] 可能很大而不便于表示,在应用中一般是将其值对 m o d mod mod 取模,即:

h [ i ] = ( h [ i − 1 ] ∗ b a s e + s i ) % m o d h[i]=(h[i-1]*base+s_i)\%mod h[i]=(h[i1]base+si)%mod

const int MAXN = 1000100;
const int BASE = 16777213, MOD = 2147483647;

long long h[MAXN], b[MAXN];

int getHash(string &s) {
    h[0] = 0;
    int n = (int)s.length();
    for (int i = 1; i <= n; i++) h[i] = (h[i - 1] * BASE + s[i - 1]) % MOD;
    return h[n];
}

当两个不同的字符串依据上述方法转换得到的散列值相同时,称之为冲突(collide),为了尽量减少冲突出现的概率,可以使用两组(甚至多组)基数和模数,得到两个不同的散列值,将之配对来表示字符串的映射值,这样冲突的概率非常小。

有时并不需要获取整个字符串的散列值,而只需获取字符串某一部分的散列值,那么可以通过类似于前缀和的技巧来获取。观察确定字符串散列值的过程:

h [ 0 ] = 0 h [ 1 ] = s 1 h [ 2 ] = s 1 ∗ b a s e 1 + s 2 h [ 3 ] = s 1 ∗ b a s e 2 + s 2 ∗ b a s e 1 + s 3 h [ 4 ] = s 1 ∗ b a s e 3 + s 2 ∗ b a s e 2 + s 3 ∗ b a s e 1 + s 4 h [ 5 ] = s 1 ∗ b a s e 4 + s 2 ∗ b a s e 3 + s 3 ∗ b a s e 2 + s 4 ∗ b a s e 1 + s 5 … = … h [ n ] = s 1 ∗ b a s e n − 1 + s 2 ∗ b a s e n − 2 + ⋯ + s 1 ∗ b a s e 1 + s n \begin{aligned} h[0] &= 0 \\ h[1] &= s_1 \\ h[2] &= s_1 * base^1 + s_2 \\ h[3] &= s_1 * base^2 + s_2 * base^1 + s_3 \\ h[4] &= s_1 * base^3 + s_2 * base^2 + s_3 * base^1 + s_4 \\ h[5] &= s_1 * base^4 + s_2 * base^3 + s_3 * base^2 + s_4 * base^1 + s_5 \\ \dots &= \dots \\ h[n] &= s_1 * base^{n-1} + s_2 * base^{n-2} + \dots + s_1 * base^1 + s_n \\ \end {aligned} h[0]h[1]h[2]h[3]h[4]h[5]h[n]=0=s1=s1base1+s2=s1base2+s2base1+s3=s1base3+s2base2+s3base1+s4=s1base4+s2base3+s3base2+s4base1+s5==s1basen1+s2basen2++s1base1+sn

如果需要计算子串 s 3 s 4 s_3s_4 s3s4 的散列值,易知其散列值为:

s 3 ∗ b a s e + s 4 = h [ 4 ] − h [ 2 ] ∗ b a s e 2 s_3*base+s_4=h[4]-h[2]*base^2 s3base+s4=h[4]h[2]base2

适当扩展可得,若要计算子串 s l … s r s_l \dots s_r slsr 的散列值,可以使用等式:

h [ l … r ] = h [ r ] − h [ l − 1 ] ∗ b a s e r − l + 1 h[l \dots r]=h[r]-h[l-1]*base^{r-l+1} h[lr]=h[r]h[l1]baserl+1

来予以确定。

// 获取字符串中序号区间为[L,R]的子串的散列值,字符串的序号从0开始计数。
int prepared = 0;
int getHash(string &s, int L, int R) {
    if (!prepared) {
        h[0] = 0, b[0] = 1;
        int n = (int)s.length();
        for (int i = 1; i <= n; i++) {
            h[i] = (h[i - 1] * BASE + s[i - 1]) % MOD;
            b[i] = b[i - 1] * BASE % MOD;
        }
        prepared = 1;
    }
    return (h[R + 1] - h[L] * b[R - L + 1] % MOD + MOD) % MOD;
}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值