一 用next[]数组
1.求next数组的公式
(1)next[0]=-1
(2)MAX{k|0<k<j|"t0.....tk-1"="tj-k.....tj-1"},当集合非空时
(3) 0 其他情况
2.KMP算法思想
设s时目标串,t时模板串,设i指针和j指针分别指目标串和模式串的正待比较的字符,另i和j的初值是0。若有si=tj,则i和j分别增1;否则i不变,j退到j=next[j]的位置(即模式串右滑)。比较s[i]和t[j],如相等,则i++和j++,否则继续j=next[j],再比较s[i]和t[j]。以此类推,直到出现下列两种情况之一为止:一种情况是j退回到某个next[j]时候s[i]=t[j],则指针增一继续匹配;另种情况是j退到j=-1,此时令i、j指针各自增一,即从s[i+1]和t[0]开始继续匹配
3.例 设模式串t="aaaab",
j | 0 | 1 | 2 | 3 | 4 |
t[j] | a | a | a | a | b |
next[j] | -1 | 0 | 1 | 2 | 3 |
4.算法实现:
/*********************KMP算法******************/
void GetNext(const char* t,int next[]) //对模式串t求next[]数组
{
int j, k;
int t_length = strlen(t);
j = 0; k = -1; next[0] = -1;
while (j < t_length-1)
{
if (k == -1 || t[j] == t[k])
{
++j; ++k;
next[j] = k;
}
else
k = next[k]; //i不变j后退
}
}
int KMPIndex(const char* s, const char* t)
{
unsigned int t_length = strlen(t); unsigned int s_length = strlen(s);
int next[MAXSIZE], i = 0, j = 0;
GetNext(t, next);
while (i < s_length&&j < t_length)
{
if (j == -1 || s[i] == t[j])
{
++i; ++j;
}
else j = next[j];
}
if (j == t_length)
{
return (i - t_length);
}
else
return -1;
}
5.KMP算法的时间复杂度
分析:设主串s长度是n,子串t的长度是m,求next[]数组的时间复杂度是O(m),匹配的时间复杂度是O(n),KMP算法时间复杂度是O(m+n)
二、用nextval[]数组
用nextval[]比用next[]效率高在哪?
按上述KMP方法,当比较到s[i]和t[j]不相同时候,应让j跳到next[j]位置也就是接下来让s[i]和t[next[j]]进行比较。如果t[j]和t[next[j]]相等,是不是就没有让s[i]和t[next[j]]继续比较的必要了?所以这时候让s[i]和t[next[next[j]]]起开始比较
void GetNextval(const char* t, int nextval[])
{
int length = strlen(t);
int j = 0, k = -1;
nextval[0] = -1;
while (j < length)
{
if (k == -1 || t[j] == t[k])
{
++j; ++k;
if (t[j] != t[k])
nextval[j] = k;
else
nextval[j] = nextval[k];
}
else
{
k = nextval[k];
}
}
}
KMPIndex()函数和上面的一样