数据结构大作业1-KMP算法
一、KMP算法及其基本概念
KMP全称为Knuth Morris Pratt算法,三个单词分别是三个作者的名字。KMP是一种高效的字符串匹配算法,用来在主字符串中查找模式字符串的位置(比如在“hello,world”主串中查找“world”模式串的位置)。
然后是一些基本概念:
为了保证严谨性,可能不可避免地我还是会给出不少概念轰炸,如果想要快速理解的同学们可以直接多看看例子
1、s[ ]是模式串,即比较长的字符串。
2、p[ ]是模板串,即比较短的字符串。
注:用长短可能不严谨,但是比较形象,也可以这样解释,s串是我们原来的母串,我们原有的串;而p串是我们想要从s串中检索的串)
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(后面会有例子,均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素的长度。
6、next[ ]是“部分匹配值表”,即next数组,它存储的是每一个下标对应的“部分匹配值”,是KMP算法的核心。(后面作详细讲解)。
核心思想:在每次失配时,不是把p串往后移一位,而是把p串往后移动至下一次可以和前面部分匹配的位置,这样就可以跳过大多数的失配步骤。而每次p串移动到哪个位置是通过查找next[ ]数组确定的。
二、next数组的含义及手动模拟
说明一下next数组的含义:对next[ j ] ,是p[ 1, j ]串中前缀和后缀相同的最大长度(部分匹配值),即 p[ 1, next[ j ] ] = p[ j - next[ j ] + 1, j ]
例子如下:
手动模拟求next数组:
对 p = “abcab”
p | a | b | c | a | b |
---|---|---|---|---|---|
下标 | 1 | 2 | 3 | 4 | 5 |
next[] | 0 | 0 | 0 | 1 | 2 |
对next[ 1 ] :前缀 = 空集—————后缀 = 空集—————next[ 1 ] = 0;
对next[ 2 ] :前缀 = { a }—————后缀 = { b }—————next[ 2 ] = 0;
对next[ 3 ] :前缀 = { a , ab }—————后缀 = { c , bc}—————next[ 3 ] = 0;
对next[ 4 ] :前缀 = { a , ab , abc }—————后缀 = { a . ca , bca }—————next[ 4 ] = 1;
对next[ 5 ] :前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;
三、匹配思路和实现代码
KMP主要分两步:求next数组、匹配字符串。我觉得匹配操作易懂一些,难点是求next数组的思想,所以先把匹配字符串讲一下。
s串 和 p串都是从1开始的。i 从1开始,j 从0开始,每次s[ i ] 和p[ j + 1 ]比较
当匹配过程到上图所示时,
s[ a , b ] = p[ 1, j ] && s[ i ] != p[ j + 1 ] 此时要移动p串(不是移动1格,而是直接移动到下次能匹配的位置)
这里我们其实可以不用把p串当成他在移动,这样不太利于我们后续的理解代码和代码实现,我们可以理解成一次失败了之后,我们在失败的位置开始继续用p串去匹配,只是按照我们日常生活中的习惯,我们会把p从头开始又去和从s[i]
开始进行匹配,KMP就是帮助我们不要用这么多无用的步骤,可以从p串的某个位置开始,至于可以从头跳过多少个位置开始匹配,正好就取决于j
这个位置的next数组的值了。
其中1串为[ 1, next[ j ] ],3串为[ j - next[ j ] + 1 , j ]。由匹配可知 1串等于3串,3串等于2串。所以直接移动p串使1到3的位置即可。这个操作可由j = next[ j ]直接完成。 如此往复下去,当 j == m时匹配成功。
匹配部分的代码如下:
for(int i = 1, j = 0; i <= n; i++)
{
while(j && s[i] != p[j+1]) j = ne[j];
//如果j有对应p串的元素, 且s[i] != p[j+1], 则失配, 移动p串
//用while是由于移动后可能仍然失配,所以要继续移动直到匹配或整个p串移到后面(j = 0)
if(s[i] == p[j+1]) j++;
//当前元素匹配,j移向p串下一位
if(j == m)
{
//匹配成功,进行相关操作
j = next[j]; //继续匹配下一个子串
}
}
四、求next数组的思路和实现代码
next数组的求法是通过模板串自己与自己进行匹配操作得出来的(代码和操作基本上一模一样)
代码如下:
for(int i = 2, j = 0; i <= m; i++)
{
while(j && p[i] != p[j+1]) j = next[j];
if(p[i] == p[j+1]) j++;
next[i] = j;
}
关键在于每次移动 i 前,将 i 前面已经匹配的长度记录到next数组中,也就是i
位置的next值next[i]
五、完整代码
完整借助一道实际的算法题来实现:
KMP字符串:
给定一个模式串 S,以及一个模板串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串 P 在模式串 S 中多次作为子串出现。
求出模板串 P 在模式串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 00 开始计数),整数之间用空格隔开。
数据范围
1≤N≤10^5
1≤M≤10^6
输入样例:
3
aba
5
ababa
输出样例:
0 2
完整代码如下:
#include<iostream>
using namespace std;
const int N = 100010,M = 1000010;
int n,m;
int ne[N];
char p[N],s[M];
int main()
{
cin >> n >> p + 1 >> m >> s + 1;
//初始化next数组
for(int i = 2,j = 0;i<=n;i++)
{
//匹配失败时
while(j&&p[i]!=p[j+1]) j = ne[j];
//匹配成功,继续匹配
if(p[i] == p[j+1])j++;
ne[i] = j;
}
//开始匹配
for(int i = 1,j = 0;i<=m;i++)
{
while(j&&s[i]!=p[j+1]) j = ne[j];
if(s[i] == p[j+1])j++;
if(j == n)
{
//j==n表示p串已经全部匹配完了 开始输出结果了
printf("%d ",i-n);
//继续匹配
j = ne[j];
}
}
return 0;
}
运行结果:
输入:
10
jNNNNjNNNN
30
jNNPw9NNNNnNMANTNHGNjNNNNjNNNN
输出:
20
标准答案:
20