目录
什么是KMP?
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。
KMP原理
KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。
简单示例
首先举个例子看看KMP算法实现的直接思路。
给定主串和模式串:
依次进行匹配,发现不匹配的位置F。
找到在F以前的最长相等前后缀。AABAA的前缀有:A,AA,AAB,AABA;AABAA的后缀有:A,AA,BAA,ABAA。
模式串直接从最长相等前后缀的后一位开始匹配。
成功匹配。
看完之后大部分人应该是一脸懵逼的,为什么这样就可以完成字符串的匹配呢?
我们应该注意到,不匹配的字符F之前的所有字符AABAA都是已经匹配的。
知道原理以后,我们来看看代码思路。
代码思路
- 首先,列出格式串的前缀表,记为next数组或者prefix数组。
- 再进行遍历,找到不匹配的那一位,根据前缀表进行移动。
- 返回匹配成功的下标。
KMP板子
// 返回所有匹配的位置
vector<int> KMP(string &text, string &pattern){
int n = pattern.size();
vector<int> next(n, 0);
int maxlength = 0;
for(int i = 1; i < n; ++i){
while(maxlength > 0 && pattern[maxlength] != pattern[i]){
maxlength = next[maxlength - 1];
}
if(pattern[maxlength] == pattern[i]) maxlength ++;
next[i] = maxlength;
}
vector<int> positions;
int count = 0;
for(int i = 0; i < text.size(); ++i){
while(count > 0 && pattern[count] != text[i]){
count = next[count - 1];
}
if(pattern[count] == text[i]) count ++;
if(count == n){
positions.emplace_back(i - n + 1);
count = next[count - 1];
}
}
return positions;
}
// 返回第一个匹配的下标,找不到返回-1
int KMP(string &text, string &pattern){
int n = pattern.size();
vector<int> next(n, 0);
int maxlength = 0;
for(int i = 1; i < n; ++i){
while(maxlength > 0 && pattern[maxlength] != pattern[i]){
maxlength = next[maxlength - 1];
}
if(pattern[maxlength] == pattern[i]) maxlength ++;
next[i] = maxlength;
}
vector<int> positions;
int count = 0;
for(int i = 0; i < text.size(); ++i){
while(count > 0 && pattern[count] != text[i]){
count = next[count - 1];
}
if(pattern[count] == text[i]) count ++;
if(count == n){
return (i - n + 1);
}
}
return -1;
}