1.朴素的模式匹配算法
核心思想:
两个字符串S和T,长度为n和m,首先S[1]和T[1]比较,若相等,则再比较S[2]和T[2],一直比较到T[m]为止。若T[1]和S[1]不相等,则T向右移动一个字符的位置,再依次进行比较。
简单来说,就是对主串的每一个字符作为子串开头,与要匹配的字符串进行匹配。对主串做大循环,每个字符开头做T的长度的小循环,直到匹配成功或全部遍历完成为止。
改算法最坏的其情况下要比较m*(n-m+1)次,时间复杂度为O((n-m+1)*m)。
平均是(m+n)/2次查找,时间复杂度为O(m+n)。
int Index(String S,String T,int pos)
{
int i = pos;
int j = 1;
while(i <= S[0] && j <=T[0])
{
if(S[i] == T[j])
{
++i;
++j;
}
else
{
i = i-j+2;
j = 1;
}
}
if(j > T[0])
return i-T[0];
else
return 0;
}
分析:
主串S和要匹配的子串T的长度存储在S[0]和T[0]中。
函数返回子串T在主串S中第pos个字符之后的位置。若不存在,则返回值为0。
循环条件为i小于S的长度,j小于T的长度。
两字母相等继续循环++i和++j,若不相等i = i-j+2,相当于让i回到上一次匹配的首字母的下一位。而j回溯为1。
i-j+1为该次匹配第一个匹配的字母。bb
2.KMP模式匹配算法
KMP算法的核心是避免不必要的回溯,省略多余的判断。
例1:S:iloveyou T:ilovx
S和T的前4个字母都是匹配的,第五个不同,如果用BF算法的话,S的第二个字母和T的第一个字母再进行匹配,而我们直到T和S的前四个字母都是相同的,T的第一个和第二个字母不相同,所以上面这一步匹配判断是不必要的。
例2:S:www.xx T:ww.
S和T的前两个字母匹配,第三个不同,与例1不同,我们发现此时T[1] 和T[2]相同,所以继续匹配这一步是必要的。
例3:S:bbsbbskdk T:bbsbbc
S和T的前5个字母相同,第六个不同,此时T[1] 和T[2]相同,可是和例2一样继续匹配的话,很明显T[2]和T[3]不相同,即S[3]和T[2]不可能匹配成功,那么这一步就是不必要的。我们应该直接让T[3]和S[6]匹配。
例4:S:ssssssx T:ssssb
S和T的前4个字母相同,第5个不同,所以右移一个匹配S[5]和T[4]。
void get_next(String T,int *next)
{
int i,j;
i = 1;
j = 0;
next[1] = 0;
while(i<T[0])
{
if( j == 0 || T[i] == T[j])
{
++i;
++j;
next[i] = j;
}
else
j = next[j];
}
}
int Index_KMP(String S,String T,int pos)
{
int i = pos;
int j = 1;
int next[200];
get_next(T,next);
while(i <= S[0] && j <= T[0])
{
if( j == 0 || S[i] == T[j])
{
++i;
++j;
}
else
{
j = next[j];
}
}
if( j > T[0])
return i-T[0];
else
return 0;
}
分析:
KMP算法和BF算法相比改动不大,主要是在回溯的部分改动,并且增加了next数组的构造。
if匹配里加入了j = 0的判断
KMP算法的核心是避免不必要的回溯。
整个算法的复杂度为O(m+n)。