- 转自:http://blog.csdn.net/tkd03072010/article/details/6824326
- package arithmetic;
- /**
- * Java实现KMP算法
- *
- * 思想:每当一趟匹配过程中出现字符比较不等,不需要回溯i指针,
- * 而是利用已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远
- * 的一段距离后,继续进行比较。
- *
- * 时间复杂度O(n+m)
- *
- * @author xqh
- *
- */
- public class KMPTest {
- public static void main(String[] args) {
- String s = "abbabbbbcab"; // 主串
- String t = "bbcab"; // 模式串
- char[] ss = s.toCharArray();
- char[] tt = t.toCharArray();
- System.out.println(KMP_Index(ss, tt)); // KMP匹配字符串
- }
- /**
- * 获得字符串的next函数值
- *
- * @param t
- * 字符串
- * @return next函数值
- */
- public static int[] next(char[] t) {
- int[] next = new int[t.length];
- next[0] = -1;
- int i = 0;
- int j = -1;
- while (i < t.length - 1) {
- if (j == -1 || t[i] == t[j]) {
- i++;
- j++;
- if (t[i] != t[j]) {
- next[i] = j;
- } else {
- next[i] = next[j];
- }
- } else {
- j = next[j];
- }
- }
- return next;
- }
- /**
- * KMP匹配字符串
- *
- * @param s
- * 主串
- * @param t
- * 模式串
- * @return 若匹配成功,返回下标,否则返回-1
- */
- public static int KMP_Index(char[] s, char[] t) {
- int[] next = next(t);
- int i = 0;
- int j = 0;
- while (i <= s.length - 1 && j <= t.length - 1) {
- if (j == -1 || s[i] == t[j]) {
- i++;
- j++;
- } else {
- j = next[j];
- }
- }
- if (j < t.length) {
- return -1;
- } else
- return i - t.length; // 返回模式串在主串中的头下标
- }
- }
以下为原创:
关于KMP的一些资料,网上说的比较清楚的有:
http://www.matrix67.com/blog/archives/115
http://billhoo.blog.51cto.com/2337751/411486
最后我要补充一点:
不是说什么情况都是KMP算法比BF算法好,像Java里面String的indexof就用的是BF算法。
这怎么说?KMP虽然消除了指针i的回溯,但是引入了预处理的开销。当如果需要匹配汉字时,KMP往往比BF效率低,因为汉字很多,所以很少有匹配了几个词而又不匹配的情况出现,于是next数组里面大部分都是0,很少有-1,因而,KMP效率就比BF差。
虽然KMP的复杂度是o(m+n),而BF的复杂度是o(mn),但是复杂度跟实际开销是不同的,两者不能混淆。复杂度反应的是一种变化趋势!
说的不是很清楚,但也就说到这里吧。