问题:
字符串匹配,一个字符串是否是另一个字符串的一个子串,如果包含,返回包含的起始位置
算法:
Straightforward:
从字符串str和pattern 的第一个字符开始比较,如果不相同就将pattern 往后移一位,再从pattern 的第一位开始比
时间复杂度:O(n*m)
KMP:
实现复杂度为O(m+n)
利用pattern的性质,即字串串的部分重复性,使得 1. 不需要从pattern的第一位开始比 2.pattern 往后移动不止1位
首先需要理解前缀,前缀为字符串从第一位开始的所有子串(除去字符串本身)
后缀与前缀的定义类似。对于目标字符串ptr,ababaca,长度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分别计算的是
a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀的长度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next数组的值是[-1,-1,0,1,2,-1,0],这里-1表示不存在,0表示存在长度为1,2表示存在长度为3。
void cal_next(string str, int *next, int len) {
next[0] = -1; //next[0]初始化为-1,-1表示不存在相同的前缀和后缀
int k = -1; //k表示当前在pattern中的子串的最长前缀的位数-1
for (int q = 1; q < str.size(); q++) {//遍历所有从第一位起始的子串
while (k > -1 && str[k + 1] != str[q]) {//不能延长前缀
k = next[k];//往前找一个能满足加入str[q]可以是前缀的
}
if (str[k + 1] == str[q]) {//如果新加入一位到前缀中使得上一个字串的最长前缀得以延长
++k;
}
next[q] = k;
}
}
int KMP(string str, string pattern) {
int *next = new int[pattern.size()];
cal_next(str, next, pattern.size());
int k = -1;//k 表示当前比较的是pattern的第k位字符
for (int i = 0; i < str.size(); i++) {
while (k > -1 && pattern[k + 1] != str[i]) {//str和字符串下一位不同
k = next[k];//回溯到pattern较早前的位置,该位置由next指定
}
if (pattern[k + 1] == str[i]) {//str和pattern下一位字符相同
k = k + 1;//比较pattern下一位
}
if (k == pattern.size() - 1) {//到达pattern末尾
return i - pattern.size() + 1;
}
}
return -1;
}