问题:主串s(长度n),模式串p(长度m),从主串s中找到第一个p的位置
1.原始算法
思路:两个指针(并不是真正的指针,方便描述而已)i和j,i指向s的元素,j指向p的元素;
如果s[i]==p[j],那么i++,j++,往下走;
如果s[i] !=p[j],i回退到本次串匹配(即i-j)的下一个位置(即i-j+1),j回退到0
#include<stdio.h>
#include<string.h>
int index(const char *s, const char *p) {
int n = strlen(s);
int m = strlen(p);
int i = 0, j = 0;
while( i<n && j < m) {
if(s[i] == p[j]) {
i++;
j++;
}
else {
i = i - j + 1;
j = 0;
}
}
if( j == m)
return (i - j);
else
return -1;
}
void main()
{
char *s = "abcdabcdef";
char *p = "abcde";
printf("%d/n",index(s,p));//打印结果4
}
2.KMP算法
2.1KMP的原理
上面算法的时间复杂度O(n*m)。
大师们在大概三十年前提出了一个O(n+m)的算法,KMP算法。
KMP算法主要是解决s[i]!=p[j]的时候,i回退的问题,就是:当s[i] != p[j]时,i不回退,j回退到合适位置k,那么k如何确定?
我画了个包含i, j, k关系的图,很清晰,一看就明白了,不像书上的罗列几个式子,根本不知缘由。
如图所示,某次匹配中,要判断s[i] !=s[j]之前,必然存在的条件:
1)si-j+1 ...si-1 = p1...pj-1
如果假设j回退到合适位置k,那么k得满足:
2)si-k+1...si-1 = pj-k+1...pj-1 = p1...pk-1
由此引入:
2.2KMP的next[j]在C语言中定义
2.3KMP算法实现
把上面的原始算法稍微改动就得到KMP算法:
int kmp_index(const char *s, const char *p, int *index) {
int n = strlen(s);
int m = strlen(p);
int i = 0, j = 0;
while( i<n && j < m) {
if((j== -1) || (s[i] == p[j])) {//注意j==-1,说明p[0]和当前的p[j]不相等,
i++;
j++;
}
else {
j = next[j];
}
}
if( j == m)
return (i - j);
else
return -1;
}
计算next[j],这个从人的直觉上很容易求出来:j-1之前,p的前k个字符和后k个字符相同的最大k值。
怎么用计算机来写程序呢?求next[j]自身也是一个串匹配的问题,可以用我们在1.原始算法的方法来求(此处略),
也可以模仿上面的kmp_index来写,首先看个例子:
j 0 1 2 3 4 5 6 7
a b a a b c a c
next[j] -1 0 0 1 1 2 0
next[0]: -1;
next[1]:next[0]是-1,所以next[1]=0(-1++);
next[2]:next[1]是0,p[1]!=p[0],继续,next[0]是-1,所以next[2]=0(-1++);
next[3]:next[2]是0,p[2]==p[0],所以next[3]是1(0++);
....
求next[5]:next[4]是1,因为p[4]==p[1],所以next[5]=2(1++);
求next[6]:next[5]是2,因为p[5]!=p[2],继续,next[2]是0,因为p[5]!=p[0],继续,next[0]是-1,所以next[6]=0(-1++);
求next[7]:next[6]是0,因为p[6]==p[0],所以next[6]=1(0++);
#include<stdio.h>
#include<string.h>
int kmp_index(const char *s, const char *p,int *next) {
int n = strlen(s);
int m = strlen(p);
int i = 0, j = 0;
while( i<n && j < m) {
if((j== -1) || (s[i] == p[j])) {
i++;
j++;
}
else {
j = next[j];
}
}
if( j == m)
return (i - j);
else
return -1;
}
void get_next(const char *p, int *next) {
int m = strlen(p);
next[0] = -1;
int i = 1, j = 0, k = 0;
while( i < m) {
k = i - 1;
j = next[k];
label:
if((j == -1) || (p[k] == p[j])) {
j++;
next[i] = j;
i++;
}
else {
j = next[j];
goto label;
}
}
}
void main()
{
char p[] = "abcaabcacd";
char s[] = "abcac";
int next[sizeof(s)-1];
get_next(s,next);
for(int i = 0; i<sizeof(s)-1; ++i)
printf("%d,",next[i]);
printf("/n%d/n",kmp_index(p,s,next));
}