串的模式匹配---------kmp算法

字符串的匹配,即在一个字符串中查找另一个字符串。

例如在字符串   BBC   ABCDAB   ABCDABCDABDE     中查找字符串   ABCDABD,       // BBC   ABCDAB   ABCDABCDABDE为主串,  ABCDABD为模式串

首先,在主串的  第一个字符  开始搜索模式串  第一个字符 ,进行比较。因为B与A不匹配,所以搜索词后移一位。

后移仍旧不匹配,一直后移到匹配为止,如下图位置


接着比较后一位的对应字符,还是相等,接着后移,直到对应位置字符不相等为止,如下图位置


那么重点来了,,这是我们首先想到的是将模式串整个后移一位,然后从头开始匹配,虽然这样做是正确的,但是效率很差,因为要把搜索位置移到已经比较过的位置重新比较,如下图位置


其实,当空格与D不匹配时,我们已经知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它尽量向后移,这样就提高了效率。具体移动的位数依据部分匹配值,如下图。 //部分匹配值计算的具体过程最后给出。

公式 :  移动步数  =  已匹配的数目  ---    字母对应的部分匹配值

已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数,6-2 = 4,所以搜索词后移4位,得下图


此时AB匹配正确,c与空格不匹配,此时移动2-0= 2步,得到下图



匹配不正确,再后移一位,如图


此时,最后一位匹配不正确,移动步数 6-2 = 4,得图


此时模式串匹配全部正确,如果想继续查找有没有其他匹配,则继续移动步数 7-0 = 7;


部分匹配值得计算方法

首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

abcd    前缀:a,ab,abc; 后缀:d,cd,bcd;

      - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

由此得部分匹配值,因为匹配值与主串无关,所以可以根据部分匹配值计算出要移动的步数。


"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。由此来提高效率






  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值