串的模式匹配算法

串的模式识别是指在主串中找到模式串的过程。

例如从主串abcdef寻找模式串ef,并返回模式串首字母在主串中的位置。

以ababcabc为主串abc为模式串为例。

ababcabc

   abc         (此时i=1,j=1回溯到i-j+2的位置)

基本算法如下:(接上篇文章中的String定义)

int Index(String S,String T,int pos)  //当两个字符相等时,将下标各往后增加1,如果不相等时,将j置1再次指向T的首字符,i进行回溯,用i减去当前j-1所指的长度再加上1代表

{                                                             //当前向后一个的位置,即i-j+2.

i=pos;

j=1;

while(i<S[0]&&j<T[0])

{

if(S[i]==T[j])

{

i++;j++;

}

else

{

i=i-j+2;j=1;

}

}

if(j>T[0]) return i-T[0];

else return 0;

}

}

 

改进型KMP算法:

在上述的算法中有许多不需要进行的比较,例如:ababcabcabcababcaba为主串,ababcaba为模式串当比较至ababcabc不等于ababcaba时,若i指针进行回溯,则需比较babcabca是否等于ababcaba。由于我们已知在主串的c字符之前,二者是相等的。而模式串本身中由于babcabc并不等于ababcab(这个信息获取不涉及主串),所以模式串也不可能等于主串的下一个元素开始的串,即babca...因此我们在求解时不采用i指针回溯的方式,而是改变j指针的值。具体将j改为多少,请看下面的具体分析:

 

因此上述方案的实现如下:

int Insert(String S,String T,int pos)

{

i=pos;j=1;

while(i<S[0]&&j<T[0])

{

if(j==0 || S[i]==T[j])

{

i++;j++;

}

else

j=next[j];

}

if (j>T[0])

return i-T[0];

else return 0;

}

因此此时涉及到next[j]如何获取,这是一个递归的过程,假设next[j]=k,说明在j之前有k-1个元素是有相同串的,即:p1...pk-1=pj-k+1...pj-1,则此时next[j+1]=?

分为以下两种情况:

pj=pk,这种情况说明p1...pk=pj-k+1...pj,此时相同字符串的长度增加了1,有next[j+1]=next[j]+1。

pj<>pk,这种情况是一种模式匹配问题,此时模式串和主串相同,就是比较在这不同的串之前有没有最大长度的首尾相同串,例如例中,若模式abaabcac,若已知第6个字符c的next[6]=3,而p6<>p3,因此将此模式串向右滑动,p6<>p1,则next[7]=1.

这个的实现方法如下:

void next(String T,int next[])

{

i=1;next[1]=0;j=0;

while(i<T[0])

{

if(j==0 || T[i]==T[j] )

{ i++;j++;next[i]=j;}

else j=next[j];

}

}

在下一篇中介绍关于next的修正算法,针对一些特殊的案例。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 简单字符模式匹配算法:也称为朴素字符匹配算法,是一种基础的字符匹配算法。它的思想是从主串的第一个字符开始,依次比较主模式对应位置的字符是否相等,如果相等则继续比较,直到模式所有字符都匹配成功,或者有一个字符不匹配为止。如果不匹配,则将主的起始位置向后移动一位,重新开始匹配。该算法的时间复杂度为O(m*n),其m和n分别为主模式的长度。 2. 首位字符模式匹配算法:也称为BF算法(Brute Force),是一种改进的字符匹配算法。它的思想是在简单字符模式匹配算法的基础上,当发现主某个字符与模式的某个字符不匹配时,不是将主的起始位置向后移动一位,而是将模式的起始位置向前移动到上一次比较成功的位置之后的下一位,继续匹配。这样可以减少比较次数,提高匹配效率。该算法的时间复杂度为O(m*n),其m和n分别为主模式的长度。 3. KMP字符模式匹配算法:是一种高效的字符匹配算法。它的核心思想是利用模式自身的特性,预处理出一个next数组,使得在匹配过程,当出现不匹配的情况时,可以通过next数组的信息,跳过一部分比较,从而提高匹配效率。具体实现方法是,在预处理next数组时,从模式的开头开始,计算出每个位置对应的最长前缀和最长后缀的公共部分长度,保存在next数组。在匹配过程,当出现不匹配的情况时,根据next数组的信息,将模式的起始位置向后移动一定的距离,从而跳过一些比较。该算法的时间复杂度为O(m+n),其m和n分别为主模式的长度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值