void getNext(vector<int>& next, string s) {
int j = 0;
next[0] = 0;
// j是s[0:i]这个字符串前缀和后缀相等的最大个数
for(int i = 1; i < s.size(); i++) {
while(j > 0 && s[i] != s[j]) {
j = next[j - 1];
}
if(s[i] == s[j]) {
j = j + 1;
}
next[i] = j;
}
}
为什么j按照上述的更新方法,是s[0: i]这个字符串中前缀和后缀相等的最大字符串的长度
j的更新方式:
如果s[i] != s[j] j一直回退(j = next[j - 1]),直到回退到s[j] = s[i]
如果s[i] == s[j] j = j + 1
倒着推导:
i ⇒ 后缀末尾位置
j ⇒ 前缀末尾位置
所以j是能匹配的最大前缀的末尾位置的下标
(1)匹配过程中不等时, j通过回退来找到适合的最大前缀
(2)当匹配相等时,j就是最大长度的下标,j+1就是长度值
比如: aabaabaf
next[0] = 0;
next[1]即"aa"中(和后缀相等的)最大前缀的位置的下标j=0, next[1] = 1
next[2]即"aab"中没有可以匹配的前缀位置,j回退到0,且不会加1, next[2] = 0
next[3]即"aaba"中的最大前缀匹配是j = 0,因为相等 j + 1 = next[3] = 1
next[4]即"aabaa"中的最大前缀匹配是j = 1,因为相等 j + 1 = next[4] = 2
next[5]即"aabaab"中的最大匹配是j = 2,因为相等 j + 1 = next[5] = 3
next[6]即"aabaaba",对比前j = 3, s[j] = 'a', s[i] = 'a', 因为相等, j + 1 = next[6] = 4
next[7]即"aabaabaf", 对比j = 4, s[j] = 'a', s[i] = 'f', 因为不等, j = next[j-1] = next[3]=1
s[j] = s[1] = 'a', 继续不等, j = next[j-1] = next[0] = 0,继续不等, 退出查找 next[7] = 0
所以next = {0, 1, 0, 1, 2, 3, 4, 0}
这个时候可以思考为什么不相等时,可以通过while不停的向前找(j = next[j - 1])
i是后缀末尾, j是前缀末尾, "aabaa", s[0: 3] = "aaba"是前缀, s[1:4] = "abaa"是后缀
如果s[j]和s[i]没能匹配,最佳的策略是到前j个字符串中缩小一个范围找到能和后缀匹配的
而next[j - 1]就是s[0: j - 1]中能够和后缀匹配的最大的长度,如果始终找不到匹配,就是0
暴力求解
#include <iostream>
#include <string>
using namespace std;
int bruteForce(string mainS, string ss) {
for(int i = 0; i < mainS.size(); i++) {
int j;
for(j = 0; j < ss.size(); j++) {
// mainS[i + j], 就可以保证j指针不仅指向ss字符串,而且通过i+j保证指针在mainS中也移动
if(mainS[i + j] != ss[j]) {
break;
}
}
if(j == ss.size()) {
return i;
}
}
return -1;
}
int main() {
string mainS = "aaaaabbbbbcccdbdasdasdsadasdasdasdasdahskajhdskjahdkjasda";
string ss = "asdasdsa";
int i = bruteForce(mainS, ss);
cout << i << endl;
return 0;
}
KMP算法
#include <iostream>
#include <string>
#include <vector>
using namespace std;
void getNext(vector<int>& next, string s) {
int j = 0;
next.resize(s.size());
next[0] = 0;
for(int i = 1; i < s.size(); i++) {
while(j > 0 && s[i] != s[j]) {
j = next[j - 1];
}
if(s[i] == s[j]) {
j++;
}
next[i] = j;
}
}
int kmp(string mainS, string ss, vector<int> next) {
//循环对比, 如果mainS[i] == ss[j], 没问题; 如果mainS[i] != ss[j], j = next[j - 1]
int i = 0, j = 0;
int index = -1;
while(i < mainS.size() && j < ss.size()) {
if(mainS[i] == ss[j]) {
j++;
} else {
j = (j < 1) ? 0 : next[j - 1];
}
i++;
if(j == ss.size() - 1) {
index = i - ss.size() + 1;
break;
}
}
return index;
}
int main() {
string mainS = "aaaaabbbbbcccdbdasdasdsadasdasdasdasdahskajhdskjahdkjasda";
string ss = "asdasdsa";
vector<int> next;
getNext(next, ss);
int i = kmp(mainS, ss, next);
cout << i << endl;
return 0;
}