一、字符串哈希:如何把一个字符串映射为一个数字
以"ABCD"为例,假设该字符串时P进制,将其转化为数字为(1 2 3 4)p = (1*p^1 + 2*p^2 + 3*p^3 + 4*p^4),(1*p^1 + 2*p^2 + 3*p^3 + 4*p^4)mod Q可将任何一个数映射到[0, Q-1]之间。
注意:
(1)一般情况下,不能把一个字符串映射为0,因为可能会造成“多对一”的情况,因此最好从1开始;
(2)经验值:当P=131或13331,Q=2^64时,基本不会发生冲突。
二、前缀哈希原理
str = "ABCDEFG"
h[0] = 0
h[1] = "A"的哈希值
h[2] = "AB"的哈希值
h[3] = "ABC"的哈希值
......
公式:h(i) = h(i-1) * p + str(i)
三、与之前哈希方式的区别
之前哈希可以允许映射冲突,而这里的通过合理取值P、Q来避免冲突。
四、好处
可以根据前缀哈希值来计算任意一个子段的哈希值。
公式:h[k] - h[l]*p^(k-l+1)
因为最后还要mod 2^64,可以使用unsigned long long来存储数据,如果数据太大的话,内存的溢出就相当于mod 2^64操作了。
五、例题
5.1 题目-acwing
给定一个长度为n的字符串,再给定m个询问,每个询问包含四个整数l1, r1, l2, r2,判断[l1, r1]和[l2, r2]这两个区间所包含的字符串子串是否完全相同。
字符串只包含大小写英文字母和数字。
输入格式:
第一行包含整数n和m,表示字符串长度和询问次数。
第二行包含一个长度为n的字符串,字符串中只包含大小写英文字母和数字。
接下来m行,每行包含四个整数l1, r1, l2, r2,表示一次询问所涉及的两个区间。
注意,字符串的位置从1开始编号。
输出格式:
对于每个询问输出一个结果,如果两个字符串子串完全相同则输出“Yes”,否则输出“No”。
5.2 代码
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
typedef unsigned long long ULL;
const int N = 100010, P = 131;
int n, m;
char str[N];
ULL h[N], p[N];
ULL get(int l, int r)
{
return h[r] - h[l - 1] * p[r - l + 1];
}
int main()
{
scanf("%d%d%s", &n, &m, str + 1);
p[0] = 1;
for(int i = 1; i <= n; i++){
p[i] = p[i - 1] * P;
h[i] = h[i - 1] * P + str[i];
}
while(m--){
int l1, r1, l2, r2;
scanf("%d%d%d%d", &l1, &r1, &l2, &r2);
if(get(l1, r1) == get(l2, r2))
puts("Yes");
else
puts("No");
}
return 0;
}