【数据结构】可以逃课其它字符串算法的字符串哈希算法

一、例题引入

Acwing 字符串哈希

给定一个长度为 n 的字符串,再给定 m 个询问,每个询问包含四个整数 l1,r1,l2,r2,请你判断 [l1,r1] 和 [l2,r2] 这两个区间所包含的字符串子串是否完全相同。

字符串中只包含大小写英文字母和数字。

输入格式
第一行包含整数 n 和 m,表示字符串长度和询问次数。

第二行包含一个长度为 n 的字符串,字符串中只包含大小写英文字母和数字。

接下来 m 行,每行包含四个整数 l1,r1,l2,r2,表示一次询问所涉及的两个区间。

注意,字符串的位置从 1 开始编号。

输出格式
对于每个询问输出一个结果,如果两个字符串子串完全相同则输出 Yes,否则输出 No。

每个结果占一行。

数据范围
1≤n,m≤1e5
输入样例:
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:
Yes
No
Yes

二、算法讲解

字符串前缀哈希法:把字符串变成一个p进制数字(哈希值),实现不同的字符串映射到不同的数字。
对形如 X1X2X3⋯Xn−1XnX1X2X3⋯Xn−1Xn 的字符串,采用字符的ascii 码乘上 P 的次方来计算哈希值。

映射公式 (X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ(X1×Pn−1+X2×Pn−2+⋯+Xn−1×P1+Xn×P0)modQ
注意点:

  1. 任意字符不可以映射成0,否则会出现不同的字符串都映射成0的情况,比如A,AA,AAA皆为0
  2. 冲突问题:通过巧妙设置P (131 或 13331) , Q (264)的值,一般可以理解为不产生冲突。

问题是比较不同区间的子串是否相同,就转化为对应的哈希值是否相同。
求一个字符串的哈希值就相当于求前缀和,求一个字符串的子串哈希值就相当于求部分和。

  • 前缀和公式 h[i+1]=h[i]×P+s[i]h[i+1]=h[i]×P+s[i] i∈[0,n−1]i∈[0,n−1] h为前缀和数组,s为字符串数组
  • 区间和公式h[l,r]=h[r]−h[l−1]×Pr−l+1h[l,r]=h[r]−h[l−1]×Pr−l+1
    • 区间和公式的理解: ABCDE 与 ABC 的前三个字符值是一样,只差两位,
      乘上P2 把 ABC 变为 ABC00,再用 ABCDE - ABC00 得到 DE 的哈希值。

三、代码实现

//#pragma GCC optimize(2)
#include<iostream>
#include<iomanip>
#include<cstdio>
#include<string>
#include<algorithm>
#include<cmath>
#include<queue>
#include<vector>
#include<map>
#include<stack>
#include<set>
#include<bitset>
#include<ctime>
#include<cstring>
#include<list>
#define ll long long
#define ull unsigned long long
#define INF 0x3f3f3f3f
#define mem(a,b) memset(a,b,sizeof(a))
using namespace std;
typedef  pair<int, int> PII;

const int N = 1e6 + 7,P=131;

ull hx[N],p[N];   //用unsigned long long 来处理取模2^64的操作
/*hx[i]代表字符串前i位的哈希值,p[i]代表P的i次方*/

ull query(int l, int r)
{
	return hx[r] - hx[l-1] * p[r - l + 1]; 
	// ABCDE 与 ABC 的前三个字符值是一样,只差两位,乘上 P2 把 ABC 变为 ABC00,再用 ABCDE - ABC00 得到 DE 的哈希值。
}

void solve()
{
	int n,m;
	string s;
	cin >> n >> m;
	cin >> s;
	hx[0] =0;  //预处理
	p[0] = 1;
	for (int i = 1; i <= n; i++)
	{
		p[i] = p[i - 1] * P;   //P进制预处理
		hx[i] = hx[i - 1] * P + s[i - 1];  //字符串哈希处理
	}
	while (m--)
	{
		int l1, r1, l2, r2;
		cin >> l1 >> r1 >> l2 >> r2;    //输入字串范围
		if (query(l1, r1) == query(l2, r2))   //字符串哈希值相同
			cout << "Yes\n" ;
		else
			cout << "No\n";
	}
}

int main()
{
	std::ios::sync_with_stdio(false);
	cin.tie(0), cout.tie(0);
	solve();
	return 0;
}


四、注意

  • 在使用字符串哈希的时候,选取P=131或1331一般就可以避免产生哈希冲突的问题了,但是冲突的可能性并不是0,如果想要进一步避免产生哈希冲突。可以把两个字符串对两个P都求一次哈希值,如果两个p产生的哈希值都是相同的,那么就能保证没有产生哈希冲突。
  • 由于我们在代码中使用的是unsigned long long,所以我们并不需要进行取模的操作。因为如果目标数的值超过了264,unsigned long long会自动进行取余操作。

作者:Avalon Demerzel,喜欢我的博客就点个赞吧,更多图论与数据结构知识点请见作者专栏《图论与数据结构》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值