实现strstr功能
在文本串中查找是否出现过模式串t,如果出现过则返回匹配的第一的位置,如果没有出现返回-1
文本串:aabaabaafa
模式串:aabaaf
分析
什么是KMP算法:
因为是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。所以叫做KMP
kmp算法有什么用:
KMP主要应用在字符串匹配上。
KMP的主要思想是当出现字符串不匹配时,可以知道一部分之前已经匹配的文本内容,可以利用这些信息避免从头再去做匹配了。
所以如何记录已经匹配的文本内容,是KMP的重点,也是next数组肩负的重任。
什么是前缀表
前缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。
什么是前缀:包含首字符不包含尾字符的所有连续子字符串。
什么是后缀:包含尾字符不包含首字符的所有连续子字符串。
最长相同前后缀是指一个字符串中前缀和后缀相同的字符串长度。
什么是前缀表:记录下标i(包括i)之前的字符串中有多长的相同前后缀
如:a:最长相同前后缀的长度为0
aa:最长相同前后缀的长度为1(前缀为a,后缀为a)
aab:最长相同前后缀长度为0(前缀包含首字符a,后缀包含尾字符b,故前后缀不会相同)
aaba:最长相同前后缀长度为1(首尾字符相同)
aabaa:最长相同前后缀长度为2(前缀为aa,后缀为aa)
aabaaf:最长相同前后缀长度为0.
因此字符串"aabaaf"的前缀表为010120
当文本串"aabaabaafa"与模板串"aabaaf"匹配时,由于到’f’时匹配不符合,则寻找前一位下标在前缀表中对应的元素(f的前一位是a,对应的前缀表是2,则从 模式串中s[2]中继续查找。
next数组
很多KMP算法的时间都是使用next数组来做回退操作,那么next数组与前缀表有什么关系呢?
next数组就可以是前缀表,但是很多实现都是把前缀表统一减一(右移一位,初始位置为-1)之后作为next数组。
为什么这么做呢,其实也是很多文章视频没有解释清楚的地方。
其实这并不涉及到KMP的原理,而是具体实现,next数组即可以就是前缀表,也可以是前缀表统一减一(右移一位,初始位置为-1)。
前缀表统一减一的代码实现
#include<iostream>
#include<string>
using namespace std;
class Soluton{
public:
void Getnext(int *next, const string &s) {
int j = -1;//j指向前缀的起始位置
int i;//i指向后缀地的起始位置
next[0] = j;//next数组为前缀表
for (i = 1; i < s.size(); i++) { //注意i从1开始
while(j >= 0 && s[j+1] != s[i]) { //前后缀不同
j = next[j];//j寻找之前匹配的位置
}
if (s[j+1] == s[i]) j++;//前后缀相同 ,i,j 同时向后移动
next[i] = j;//将j(前缀的长度)赋值为next[i]
}
}
int Strstr(string haystack, string needle) { //haystack为文本串,needle为模式串
if (haystack.size() == 0) return 0;
int next[needle];
Getnext(next,needle);
int i, j = -1;//因为next数组中记录的起始位置为-1
for (i = 0; i < haystack.size(); i++) {
while(j >= 0 && haystack[i] != needle[j+1]) {
j = next[j];//j寻找之前匹配的位置
}
if (haystack[i] == needle[j+1]) j++;
if (j == needle.size()-1) return i - needle.size() + 1;//文本串出现的模式串
}
return -1;
}
}
int main() {
Solution Q;
string haystack, needle;
cin>>haystack>>needle;
cout<<Q.Strstr(haystack,needle)<<endl;
}