简介
引入
背景:给定一个字符串 S,以及一个模式串 P,模式串 P 在字符串 S 中子串出现。判断模式串P是否在字符串S出现过。
原理
暴力做法
依次比较以长字符串各个字母为开头的子串是否与短字符串匹配。如果有匹配的输出起始位置,如果没有,输出 -1。
例如:以长的字符串 S = “ababababfab” ,短的字符串 P = “ababf” 为例,过程如下:
首先用S[0]开头的子串:ababa 与 P比较,不匹配。
接着用S[1]开头的子串:babab 与 P比较,不匹配。
接着用S[2]开头的子串:ababa 与 P比较,不匹配。
接着用S[3]开头的子串:babab 与 P比较,不匹配。
接着用S[4]开头的子串:ababf 与 P比较,匹配。输出4。
代码如下
// 遍历s中的每一个字符
for(int i = 1; i <= m; i ++)
{
// 从s的第i个字母开始匹配
for(int j = 1; j <= n; j ++)
{
if(p[j] != s[i + j - 1])
break;
if(j == n)
// 这里是从0开始计数
cout << i - 1 << " ";
}
}
KMP算法
KMP算法是一种快速在一长串的字符串中找到与目标字符串完全相同的子字符串的方法。
这里提出的优化方法就是,当不匹配的时候,能不能找到模式串匹配向后移动最少的距离,继续匹配,移动的越少,就更快地到达终点,时间就少了。
所以我们就提出了一个最长公共前后缀长度数组next[],next[i] = j表示模式串p[i] 前面的字符串的最长公共前后缀长度为j。
以暴力做法地例子为例
P=“ababf” 的最长公共前后缀
- P[0] 前面没有字符串,所以最长公共前后缀长度为 0。
- P[1] 前面的字符串a,a没有前后缀。最长公共前后缀长度为 0。
- P[2] 前面的字符串为ab,它的前缀为:a,后缀为b。前缀不等于后缀,所以没有公共前后缀,最长公共前后缀长度为 0。
- P[3] 前面的字符串为aba,aba 的前缀有:a,ab, 后缀有:a,ba。因为 ab 不等于 ba,所以最长公共前后缀为 a,最长公共前后缀长度为 1。
- P[4] 前面的字符串为:abab,abab 的前缀有:a,ab,aba,后缀有:a,ab, bab。最长公共前后缀为 ab,长度为 2
模板代码
求next
ne[0] = 0;
ne[1] = 0;
for (int i = 2, j = 0; p[i]; i++)
{
while (j && p[i - 1] != p[j]) j = ne[j];
if (p[i - 1] == p[j]) j++;
ne[i] = j;
}
// kmp匹配
for(int i = 1, j = 0; i <= m; i ++)
{
while(j && s[i] != p[j + 1]) j = ne[j];
if (s[i] == p[j + 1]) j ++ ;
if(j == n)
{
//匹配成功
cout << i - n << " ";
j = ne[j]; //
}
}
应用
831. KMP字符串
题目
分析
代码
#include <iostream>
using namespace std;
const int N = 1e5 + 10, M = 1e6 + 10;
int n, m;
char p[N], s[M];
int ne[N];
int main()
{
cin >> n >> p + 1 >> m >> s + 1;
// kmp预处理next数组
for(int i = 2, j = 0; i <= n; i ++ )
{
while(j && p[i] != p[j + 1]) j = ne[j];
if (p[i] == p[j + 1]) j ++ ;
ne[i] = j;
}
// kmp匹配
for(int i = 1, j = 0; i <= m; i ++)
{
while(j && s[i] != p[j + 1]) j = ne[j];
if (s[i] == p[j + 1]) j ++ ;
if(j == n)
{
//匹配成功
cout << i - n << " ";
j = ne[j]; //
}
}
return 0;
}