字符串hash
字符串hash函数把一个长度任意的字符串映射成一个非负整数,并且其冲突的概率几乎为零。
取一固定值 P P P,把字符串看成P进制数,并分配一个大于0的数值,代表每种字符。一般来说,我们分配的数值都远小于 P P P。例如,对于小写字符构成的字符串,可以令 a = 1 , b = 2 , . . . , z = 26 a=1,b=2,...,z=26 a=1,b=2,...,z=26。取一个固定值 M M M,求出该 P P P进制数对 M M M的余数,作为该字符串的hash值。
一般来说,我们取 P = 131 P=131 P=131或者 P = 13331 P=13331 P=13331,此时hash值产生冲突的概率极低,只要hash值相同,我们就可以认为原字符串是相等的。通常我们取 M = 2 64 M=2^{64} M=264,即直接用 u n s i g n e d l o n g l o n g unsigned\ long\ long unsigned long long类型存储这个hash值,产生溢出相当于自动对 M = 2 64 M=2^{64} M=264取模,这样可以避免低效的取模(mod)。
如果我们已知字符串 S S S的hash值为 H ( S ) H(S) H(S),那么在 S S S后添加一个字符 c c c构成新的字符串 S + c S+c S+c的hash值就是 H ( S + c ) = H ( S ) ∗ P + v a l u e [ c ] m o d M H(S+c)=H(S)*P+value[c]\ mod \ M H(S+c)=H(S)∗P+value[c] mod M。
如果我们已知字符串 S S S的hash值为 H ( S ) H(S) H(S),字符串 S + T S+T S+T的hash值为 H ( S + T ) H(S+T) H(S+T),那么字符串 T T T的hash值 H ( T ) = ( H ( S + T ) − H ( S ) ∗ P l e n g t h ( T ) ) m o d M H(T)=(H(S+T)-H(S)*P^{length(T)})\ mod \ M H(T)=(H(S+T)−H(S)∗Plength(T)) mod M。
例题以ACWING一道题目作为例子,兔子与兔子。
#include <bits/stdc++.h>
using namespace std;
typedef unsigned long long ull;
char s[1000010];
ull f[1000010], p[1000010];
const int P = 131;
int main()
{
ios::sync_with_stdio(false);
cin >> s+1;
int n = strlen(s+1), q; cin >> q;
p[0] = 1; // P^0 = 1
for (int i = 1; i <= n; ++ i )
{
f[i] = f[i-1]*P + (s[i]-'a'+1); // s(i) = s(i-1)*P + value[s[i]]
p[i] = p[i-1]*P; // P^i
}
for (int i = 1; i <= q; ++ i )
{
int l1, l2, r1, r2;
cin >> l1 >> r1 >> l2 >> r2;
if (f[r1]-f[l1-1]*p[r1-l1+1] == f[r2]-f[l2-1]*p[r2-l2+1]) puts("Yes");
else puts("No");
}
return 0;
}