模拟哈希的实现

最新推荐文章于 2023-10-16 00:43:07 发布

会陪你很久啊

最新推荐文章于 2023-10-16 00:43:07 发布

阅读量158

点赞数

文章标签：数据结构 c++ 算法

本文链接：https://blog.csdn.net/m0_63185171/article/details/126895847

版权

题目描述
给定一个长度为n的字符串，再给定m个询问，每个询问包含四个整数l1,r1,l2,r2l1,r1,l2,r2，请你判断[l1,r1l1,r1]和[l2,r2l2,r2]这两个区间所包含的字符串子串是否完全相同。

字符串中只包含大小写英文字母和数字。

输入格式
第一行包含整数n和m，表示字符串长度和询问次数。

第二行包含一个长度为n的字符串，字符串中只包含大小写英文字母和数字。

接下来m行，每行包含四个整数l1,r1,l2,r2l1,r1,l2,r2，表示一次询问所涉及的两个区间。

注意，字符串的位置从1开始编号。

输出格式
对于每个询问输出一个结果，如果两个字符串子串完全相同则输出“Yes”，否则输出“No”。

每个结果占一行。

数据范围
1≤n,m≤1051≤n,m≤105
输入样例:
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:
Yes
No
Yes
算法1
(字符串哈希) O(n)+O(m)O(n)+O(m)
全称字符串前缀哈希法，把字符串变成一个p进制数字（哈希值），实现不同的字符串映射到不同的数字。
对形如 X1X2X3⋯Xn−1XnX1X2X3⋯Xn−1Xn 的字符串,采用字符的ascii 码乘上 P 的次方来计算哈希值。

映射公式 (X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ(X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ
注意点：

任意字符不可以映射成0，否则会出现不同的字符串都映射成0的情况，比如A,AA,AAA皆为0
冲突问题：通过巧妙设置P (131 或 13331) , Q (264)(264)的值，一般可以理解为不产生冲突。

问题是比较不同区间的子串是否相同，就转化为对应的哈希值是否相同。
求一个字符串的哈希值就相当于求前缀和，求一个字符串的子串哈希值就相当于求部分和。

前缀和公式 h[i+1]=h[i]×P+s[i]h[i+1]=h[i]×P+s[i] i∈[0,n−1]i∈[0,n−1] h为前缀和数组，s为字符串数组
区间和公式 h[l,r]=h[r]−h[l−1]×Pr−l+1h[l,r]=h[r]−h[l−1]×Pr−l+1
区间和公式的理解: ABCDE 与 ABC 的前三个字符值是一样，只差两位，
乘上 P2P2 把 ABC 变为 ABC00，再用 ABCDE - ABC00 得到 DE 的哈希值。

C++ 代码
#include
#include
#include
using namespace std;
typedef unsigned long long ULL;
const int N = 1e5+5,P = 131;//131 13331
ULL h[N],p[N];

// h[i]前i个字符的hash值
// 字符串变成一个p进制数字，体现了字符+顺序，需要确保不同的字符串对应不同的数字
// P = 131 或 13331 Q=2^64，在99%的情况下不会出现冲突
// 使用场景：两个字符串的子串是否相同
ULL query(int l,int r){
return h[r] - h[l-1]*p[r-l+1];
}
int main(){
int n,m;
cin>>n>>m;
string x;
cin>>x;

//字符串从1开始编号，h[1]为前一个字符的哈希值
p[0] = 1;
h[0] = 0;
for(int i=0;i<n;i++){
    p[i+1] = p[i]*P;            
    h[i+1] = h[i]*P +x[i];      //前缀和求整个字符串的哈希值
}

while(m--){
    int l1,r1,l2,r2;
    cin>>l1>>r1>>l2>>r2;
    if(query(l1,r1) == query(l2,r2)) printf("Yes\n");
    else printf("No\n");

}
return 0;

}
题目描述
给定一个长度为n的字符串，再给定m个询问，每个询问包含四个整数l1,r1,l2,r2，请你判断[l1,r1]和[l2,r2]这两个区间所包含的字符串子串是否完全相同。

字符串中只包含大小写英文字母和数字。

输入格式
第一行包含整数n和m，表示字符串长度和询问次数。

第二行包含一个长度为n的字符串，字符串中只包含大小写英文字母和数字。

接下来m行，每行包含四个整数l1,r1,l2,r2，表示一次询问所涉及的两个区间。

注意，字符串的位置从1开始编号。

输出格式
对于每个询问输出一个结果，如果两个字符串子串完全相同则输出“Yes”，否则输出“No”。

每个结果占一行。

数据范围
1≤n,m≤105

样例
输入样例：
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例：
Yes
No
Yes
算法1
题解
假设有|S|=5的字符串，设Si为第i个字符，其中1≤i≤5。

根据定义分别求出hash[i]
hash[1]=s1hash[1]=s1
hash[2]=s1∗p+s2hash[2]=s1∗p+s2
hash[3]=s1∗p2+s2∗p+s3hash[3]=s1∗p2+s2∗p+s3
hash[4]=s1∗p3+s2∗p2+s3∗p+s4hash[4]=s1∗p3+s2∗p2+s3∗p+s4
hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5
现在我们想求s3s4的hash值，不难得出为s3∗p+s4,并且从上面观察，如果看hash[4]−hash[2]并将结果种带有s1,s2系数的项全部消掉，就是所求。但是由于p的阶数，不能直接消掉，所以问题就转化成，将hash[2]乘一个关于p的系数，在做差的时候将多余项消除，从而得到结果。

不难发现，对应项系数只差一个p2，而4 - 3 + 1 = 2(待求hash子串下标相减再加一)，这样就不难推导出来此例题的求解式子。

hash[4]−hash[2]∗p4−2+1
至此，通过对上例的归纳，可以得出如下的公式。

公式
若已知一个|S|=n|S|=n的字符串的hash值，hash[i],1≤i≤n，其子串sl…sr,1≤l≤r≤n对应的hash值为：

hash=hash[r]−hash[l−1]∗pr−l+1

考虑到hash[i]每次对p取模，进一步得到下面的式子：

hash=(hash[r]−hash[l−1]∗pr−l+1)%MOD
看起来这个式子人畜无害，但是对于取模运算要谨慎再谨慎，注意到括号里面是减法，即有可能是负数，故做如下的修正：

hash=((hash[r]−hash[l−1]∗pr−l+1)%MOD+MOD)%MOD
至此得到求子串hash值公式。

值得一提的是，如果需要反复对子串求解hash值，预处理p的n次方效果更佳。
(STL)
// 该解决方法会爆int

#include
#include
using namespace std;
int n ,m;
string s;
int main(){
cin >> n >> m;
cin >> s;
while(m–){
int l1,r1,l2,r2;
cin>>l1>>r1>>l2>>r2;
string s1 = s.substr(l1-1,r1-l1+1);
string s2 = s.substr(l2-1,r2-l2+1);
if(s1==s2){
cout << “Yes” << endl;
}else{
cout << “No” << endl;
}
}

return 0;

}

C++ 代码
#include
#include
using namespace std;
typedef unsigned long long ULL;
const int N=100010,M=131;

int n,m;
char str[N];
ULL p[N],h[N];
ULL get(int l,int r){
return h[r]-h[l-1]*p[r-l+1];
}
int main(){
cin>>n>>m;
cin>>str+1;
p[0]=1;
for(int i=1;i<=n;i++)
{
h[i]=h[i-1]*M+str[i];
p[i]=p[i-1]*M;
}
while(m–){
int l1,r1,l2,r2;
cin>>l1>>r1>>l2>>r2;
if(get(l1,r1)==get(l2,r2))puts(“Yes”);
else puts(“No”);
}
return 0;
}