KMP字符串匹配算法

一、KMP算法简介

字符匹配问题是计算机需要解决的基本问题,KMP算法是实用的解决字符串匹配问题的算法之一。

简单来说,就是查找主字符串是否连续包含子字符串的所有字符,注意是连续包含!!

例如:有一个字符串"BBCABCDABABABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?

暴力搜寻方法:从主字符串的第一个元素开始进行搜寻,如果以当前字符的之后的子字符长度个字符与子字符串不匹配则进行下一字符的搜索。

存在的问题:没有利用前面搜索过的信息,导致许多重复搜索。

一、KMP算法实现

KMP算法就是利用合理前缀搜索的信息,减少对已搜索的字符重复操作。

步骤一:先利用子串构建next数组

以"ABCDABD"为例:

  - "A"的前缀和后缀都为空集,共有元素的长度为0;

  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

StrABCDABD
next[i]0000120

步骤二:匹配

前面"BBC"未跟子串匹配,然后六个字符"ABCDAB"与子串匹配的,但第7个字符‘A’与子串的第7字符‘D’不匹配;查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:

  移动位数 = 已匹配的字符数 - 对应的部分匹配值

即向后移动 6 - 2 =4 位,重新匹配,第三位A与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位,重复进行搜索直到最后。可以等效理解为下次比较的模式串中的第i位为(由于next数组是从0存起的):

下次比较的字符为模式串的第i位 = 对应的部分匹配值 ;

参考:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值