哈希:
哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。
模式匹配:
模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。
利用哈希算法解决模式匹配问题,定义模式匹配问题为在 S 字符串中寻找 T 字符串出现的次数及每次出现的起始位置。
首先朴素算法:
计算出 T 串的哈希值,与 S 串中每一个连续且长度为 |T| 的字符串进行哈希值比较,若 S 中每个字符串都重新开始计算哈希值,复杂度为
O(|T|∗|S|)
优化算法:
通过特殊设计的哈希函数,使得可以在
O(1)
的时间复杂度内由
hash[i,j]
,递推出
hash[i+1,j+1]
。复杂度降为
O(n+m)
哈希函数设计:
hash[i,j]={∑x=0j−iBasej−i−x∗S[x+i]}%mod
其中:
hash[i,j]
,表示下标从 i 到 j 这一段的哈希值
Base
,是一个任取的基数
S[i]
,表示字符串第 i 位字符的编码
mod
,是一个任取 ( 最好为质数 ) 的足够大的值,是哈希值的取值范围
由取模运算的性质可以推出
hash[i+1,j+1]={hash[i,j]−Basej−i∗S[i]}Base+S[j+1]
代码如下:
题目为HDOJ 1686 Oulipo
http://acm.hdu.edu.cn/showproblem.php?pid=1686
#define author Reskip
#define uint unsigned int
#define maxn 1000005
uint base = 13331;
uint debase;
char data[maxn];
uint cmp;
uint tcmp;
int main()
{
int t;
cin >> t;
while (t--)
{
int ans = 0;
int len = 0;
debase = 1;
cmp = 0;
tcmp = 0;
scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
len++;
cmp *= base;
debase *= base;
cmp += data[i];
}
scanf("%s", &data);
for (int i = 0; data[i]; i++)
{
tcmp *= base;
tcmp += data[i];
if (i >= len)
{
tcmp -= data[i - len] * debase;
}
if (tcmp == cmp)
{
ans++;
}
}
cout << ans << "\n";
}
}