0x01 KMP算法简介
KMP算法是一种高效寻找字符串的算法,用于在字符串A中是否存在字符串B,时间复杂度为O(n+m)。
0x02 在学习KMP之前先了解一下BF算法
BF算法的简单介绍
0x03 聪明的KMP算法
举个栗子。
位置 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|---|
字符串A | c | a | b | c | o | b | x | b | c |
字符串B | a | b | c | o | x |
有字符串A和B,在A中寻找B,我们应该怎么做那。
首先,取A,B字符串中的第一个字符 A[0],B[0] 进行比较,也就是 ‘c’ 和 ‘a’,很明显是不相等的。
然后,取A串第二个字符 A[1]与B串中第一个字符B[0] 进行比较,也就是 ‘a’ 和 ‘a’,这是相等的。
接着,取A串第三个字符 A[2]与B串中第二个字符B[1] 进行比较,也就是 ‘b’ 和 ‘b’,这也是相等的。
…(同上)
等等,说着到这细心的同学就会发现这不还是在说BF算法吗?
…(请您耐心的向下看)
其实KMP算法与BF算法的区别在于当发现A,B字符串所在位置的两个字符不相等时的处理方式上
BF算法会将A,B字符串的位置进行回溯,在挨个比较,可以说这样的方式是相当笨拙。
而KMP算法就比较高明了,KMP算法是怎么做的呢?
KMP就在想,既然A[1]和B[0]是相等的,A[2]和B[1]也是相等的,那么A[2]和B[0]肯定也不是相等的。依次类推,KMP恍然大悟,长叹一声我可不能像BF那个憨憨一样多走那么多冤枉路啊。
既然如此,我已经可以推算出A[1]和B[0]串后面的字符一定不相等了,那我在一个个比较干啥呀,直接越过,从’a’与’o’在开始进行比较,不就很ok吗。
但是此时又有问题了,这是B[0]与后面的字符都不相等,但是如果有有相等的怎么办那?
比如这种。
这样的话直接跳过去显得就不是特别好了,但是如果在跳到下个’a’,那么字符串A又回溯,这样还是很麻烦,很显然不然KMP想要的,经过一番思考KMP想出了一个很高明的办法。
通过一个next数组,来记录好B下一次回溯的位置,这样只需要B来回动,A只需要躺好就成了,很显然大大的提高了工作效率。
A字符串的位置不变,B字符串回溯到’c’的位置继续进行比较。
0x04 next[]数组的计算方法
位置 i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|---|
字符串B | a | b | a | b | x | a | b | |
next[] | -1 | 0 | 1 | 2 | 0 | 1 | 2 |
i = 0时, 为了方便以后编程,next[0] = -1
i = 1时,B串的第一个字符’a’与B串的第二个字符’b’ 进行比较,不相等,next[1] = 0;
i = 2时,B串的第一个字符’a’与B串的第三个字符’a’ 进行比较,相等为,next[2] = next[1] + 1 = 1;
i = 3时,B串的第二个字符’b’与B串的第四个字符’b’ 进行比较,相等为,next[3] = next[2] + 1 = 2;
i = 4时,B串的第三个字符’a’与B串的第五个字符’x’ 进行比较,不相等,next[4] = 0;
i = 5时,B串的第一个字符’a’与B串的第六个字符’a’ 进行比较,相等为,next[5] = next[4] + 1 = 1;
i = 6时,B串的第二个字符’b’与B串的第七个字符’b’ 进行比较,相等为,next[6] = next[5] + 1 = 2;
求next数组值的过程,也是B串寻找自身有无重复子串的一个过程。
next数组实现代码:
void getNext(string S, int next[])
{
int i, j;
i = 0;
j = -1;
next[0] = -1;
while (S[i])
{
//无论等于或者不等于第一次都需要位移
if (j==-1 || S[i]==S[j])
{
i++;
j++;
next[i] = j;
}
else
{
j = next[j]; //无论j的值为多少,多长执行后,j的值最终会等于-1
}
}
}
0x05 完整代码
#include <iostream>
#include <string>
using namespace std;
void getNext(string S, int next[])
{
int i, j;
i = 0;
j = -1;
next[0] = -1;
while (S[i])
{
//无论等于或者不等于第一次都需要位移
if (j==-1 || S[i]==S[j])
{
i++;
j++;
next[i] = j;
}
else
{
j = next[j]; //j的值最终会等于-1
}
}
}
int KMP(string A, string B)
{
int next[100] = { 0 };
getNext(B,next);
int i, j;
i = 0;
j = -1;
while (j < B.length() || i <A.length())
{
if (j == -1 || A[i]==B[j])
{
i++;
j++;
}
else
{
j = next[j];
}
cout << A[i];
}
if (j == B.length())
return i - j; //B串首字母位置
else
return -1;
}
int main()
{
cout << KMP("abcabcxabcabc", "abcabc") << "\n";
return 0;
}