KMP 字符串匹配算法

简介

KMP 算法是一种字符串匹配算法,字符串匹配应用比较广泛,比如网页文本搜索,在文本种找到某个模式的所有出现位置,在 DNA 序列种搜寻特定的序列等。该算法是由 Knuth、Morris 和 Pratt 三人设计的,可以在线性时间字符串匹配的算法。其他匹配算法还有暴力算法、Rabin-Karp 算法、有限自动机算法(用于正则表达式、词法分析等),下面我们主要介绍 KMP 算法

复杂度

设定主串长度为 n、模式串长度为 m
匹配时间复杂度 O(n)
辅助函数计算时间复杂度 O(m)
辅助函数空间复杂度 O(m)
辅助函数通过在 next 数组中记录模式串的前后缀信息,在字符串匹配过程种避免主串回溯,从而达到 O(n) 的匹配时间复杂度

算法详解

1. next 数组

next 数组是对于模式串 P 而言的
设定 next*[i] = k,它表示模式串 P 从下标 0 到下标 i 的子串中,前缀与后缀相同的最大字符数 k 其中 k <= i - 1。
next 数组是相对于 next* 数组整体右移一位,首位补 -1,主要是为了方便使用,利用 next* 数组也可以进行 KMP 算法

示例:

模式串Pabababcb
index01234567
next*0012340NA
next-10012340

next*[0] = 0,前后缀为空字符串
next*[1] = 0,前后缀均不相同
next*[2] = 1,存在最长相同前后缀 “a”
next*[3] = 2,存在最长相同前后缀 “ab”
next*[4] = 3,存在最长相同前后缀 “aba”
next*[5] = 4,存在最长相同前后缀 “abab”
next*[6] = 0,前后缀均不相同

next* 数组求解过程

在这里插入图片描述

2. KMP 算法

匹配过程
请添加图片描述
上面的匹配过程种,主串并不会回溯,遇到匹配失败,则会根据 next 数据调整模式串匹配位置,主串种匹配失败的位置可能会进行多次匹配,但是整体复杂度并不会超过 O(n),算法导论中有对 KMP 算法时间复杂度的摊还分析,有兴趣的可以看一下

实现代码

1. 求解 next 数组代码

void getNext(char * p, int * next) {
	next[0] = -1;
	int i = 0, j = -1;
	while (i < (int)strlen(p)) {
		if (j == -1 || p[i] == p[j]) {
			++i;
			++j;
			next[i] = j;
		} else {
			j = next[j];
		}
	}
}

2. KMP 匹配

int kmp(char * t, char * p)  {
	int i = 0; 
	int j = 0;
	while (i < (int)strlen(t) && j < (int)strlen(p)) {
		if (j == -1 || t[i] == p[j])  {
			i++;
       		j++;
		} else  {
       		j = next[j];
        }
    }
    if (j == strlen(p))
       return i - j;
    else 
       return -1;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值