一、KMP算法简介
字符匹配问题是计算机需要解决的基本问题,KMP算法是实用的解决字符串匹配问题的算法之一。
简单来说,就是查找主字符串是否连续包含子字符串的所有字符,注意是连续包含!!
例如:有一个字符串"BBCABCDABABABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?
暴力搜寻方法:从主字符串的第一个元素开始进行搜寻,如果以当前字符的之后的子字符长度个字符与子字符串不匹配则进行下一字符的搜索。
存在的问题:没有利用前面搜索过的信息,导致许多重复搜索。
一、KMP算法实现
KMP算法就是利用合理前缀搜索的信息,减少对已搜索的字符重复操作。
步骤一:先利用子串构建next数组
以"ABCDABD"为例:
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
Str | A | B | C | D | A | B | D |
next[i] | 0 | 0 | 0 | 0 | 1 | 2 | 0 |
步骤二:匹配
前面"BBC"未跟子串匹配,然后六个字符"ABCDAB"与子串匹配的,但第7个字符‘A’与子串的第7字符‘D’不匹配;查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:
移动位数 = 已匹配的字符数 - 对应的部分匹配值
即向后移动 6 - 2 =4 位,重新匹配,第三位A与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位,重复进行搜索直到最后。可以等效理解为下次比较的模式串中的第i位为(由于next数组是从0存起的):
下次比较的字符为模式串的第i位 = 对应的部分匹配值 ;
参考:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html