KMP算法
引言:
这篇文章纯粹是怕自己下次忘了可以查看,所以没用专业术语,可能还有很多错误的地方。
算法概述:
Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置,这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人于1977年联合发表,故取这3人的姓氏命名此算法。
代码:
#include<iostream>//C++输入输入头文件
#include<string>
#include<cstdio>
using namespace std;//命名空间 要使用cin cout先声明
int Next[100001];
//优化过后的next 数组求法
//next值其实就相当于求该字符串之前最大长度的相同前缀后缀
//如 *abc*d*abc*d(abcdabcd) d的最大相同前缀后缀是abc 所以next[7]=3;c的最大相同前缀后缀是ab。
int* getNext(string p)
{
int* next = new int[p.length()];//定义p.length()长度个未初始化的int
next[0] = -1; //next初始化为0
int j = 0;
int k = -1;//k代表匹配到当前字符前一个字符相同前缀后缀的最大长度
while (j < (int)p.length())
{
if (k == -1 || p[j] == p[k])//
{
j++;
k++;
if (p[j]!= p[k])//
{
next[j] = k;//表示字符j之前有最大长度为k的相同前缀后缀
}
else
{
next[j] = next[k];
//因为不能出现p[j] = p[ next[j]],所以当出现时需要继续递归,k = next[k] = next[next[k]]
//不能出现是因为当p[j] != s[i] 时,下次匹配必然是p[ next [j]] 跟s[i]匹配,如果p[j] = p[ next[j] ],
//必然导致后一步匹配失败(因为p[j]已经跟s[i]失配,然后你还用跟p[j]等同的值p[next[j]]去跟s[i]匹配,很显然,必然失配)
//,所以不能允许p[j] = p[ next[j ]]。如果出现了,则需要再次递归,即令next[j] = next[ next[j] ]。
```
}
```
}
else
{
k = next[k];//若p[k ] ≠ p[j],如果此时p[ next[k] ] == p[j ],则next[ j + 1 ] = next[k] + 1,否则继续递归前缀索引k = next[k],
//若能在前缀“ p0 pk-1 pk ” 中不断的递归前缀索引k = next [k],找到一个字符pk’ 也为D,代表pk’ = pj
//,且满足p0 pk'-1 pk' = pj-k' pj-1 pj,则最大相同的前缀后缀长度为k' + 1,从而next [j + 1] = k’ + 1 = next [k' ] + 1。
//否则前缀中没有D,则代表没有相同的前缀后缀,next [j + 1] = 0。
//k=next[k]就相当于递归 直到要么找到长度更短的相同前缀后缀,要么没有长度更短的相同前缀后缀。
}
}
return next;
}
int KMP(string T, string p)
{
int i = 0;
int j = 0;
int* next = getNext(T);
while (i < (int)T.length() && j < (int)p.length())
{
if (j == -1 || T[i] == p[j])//如果字符串T和P匹配成功 则i++,j++,继续往后匹配
{
i++;
j++;
}
else
{
j = next[j];//如果匹配失败,则让字符串P回溯到相同最大长度相同前缀后缀那个地方
//(例如T是ABCABBADABCABD P是ABCABD,则让j指向的位置回到第一个B,然后i++,j++让T的第三个B和P的第一个C进行匹配)
}
}
if (j == (int)p.length())
{
return i - j;//返回T匹配成功的下标
}
return -1;
}
int main()
{
string s, p;
cin >> s >> p;
cout<< KMP(s,p);
return 0;
}
推荐博客
https://blog.csdn.net/v_JULY_v/article/details/7041827
;
return 0;
}
###### 推荐博客
https://blog.csdn.net/v_JULY_v/article/details/7041827
这篇博客写得超级细,就是我太爱钻牛角尖,非得知道个所以然,琢磨了十几个小时。。。。