KMP算法介绍
- KMP是一个解决模式串在文本串是否出现过,如果出现过,最早出现的位置的经典算法
- Knuth-Morris-Pratt字符串查找算法,简称“KMP算法”,常用于在一个文本串str1查找一个模式串str2的出现位置
- KMP算法利用之前判断过的信息,通过一个next数组,保存模式串中前后最长公共子序列的长度,每次回溯时,通过next数组找到,前面匹配过的位置,省去了大量的计算时间
KMP最佳应用——字符串匹配问题
- 字符串匹配问题:
- 有一个字符串str1=“BBC ABCDAB ABCDABCDABDE”,和一个子串str2=“ABCDABD”
- 现在要判断str1是否含有str2,如果存在,就返回第一次出现的位置,如果没有则返回-1
思路分析图解
-
首先,用str1的第一个字符串和str2的第一个字符串比较,不符合,关键字向后移动一位
-
重复第一步,还是不符合,再后移
-
一直重复,直到str1有一个字符与str2的第一个字符符合为止
-
接着比较字符串和搜索词的下一个字符,还是符合
-
遇到str1有一个字符与str2对应的字符不符合
-
这个时候,想到是继续遍历str1的下一个字符,重复第1步。(其实,此时BCD已经比较过了,没有必要再做重复的工作,一个基本事实是,当空格与D不匹配时,知道前面6个字符是“ABCDAB”。KMP算法的思路是,设法利用这个已知的信息,不要把搜索位置移回已经比较过的位置,继续把它后移,提高效率。)
-
怎么做到把重复的步骤省略掉?可以对str2计算出一个张《部分匹配表》
-
已知空格与D不匹配,前面6个字符“ABCDAB”是匹配的。查部分匹配表可知,最后一个匹配字符B对应的“部分匹配值”为2,因此按照下面公式算出向后移动的位数
移动位数 = 已匹配的字符数 - 对应的部分匹配值
因为6-2 等于4,所以搜索词向后移动4位 -
因为空格与C不匹配,搜索词还要继续往后移动。此时,已匹配的字符数为2(“AB”),对应的“部分匹配值”为0。
所以 移动位数 = 2 - 0,向后移动2位 -
“部分匹配值”就是“前缀”和“后缀”的最长的共有元素的长度。以“ABCDABD”为例
- “A”的前缀和后缀都为空集,共有元素的长度为0
- “AB”的前缀为【A】,后缀为【B】,共有元素的长度为0
- “ABC”的前缀为【A,AB】,后缀为【BC,C】,共有元素长度为0
- 。。。。。。
- “ABCDA”的前缀为【A,AB,ABC,ABCD】,后缀为【BCDA,CDA,DA,A】,共有元素为【A】,长度为1
- “ABCDAB”的前缀为【A,AB,ABC,ABCD,ABCDA】,后缀为【BCDAB,CDAB,DAB,AB,B】,共有元素为“AB”长度为2
- 到此KMP算法思想分析完毕
代码实现
public class KMP {
public static int kmpSearch(String str1,String str2,int[