字符串KMP模式匹配算法

3 篇文章 0 订阅
KMP算法是一种改进的字符串匹配算法,避免了朴素算法中的主串回溯,通过next数组记录子串自身的构造信息,提高匹配效率。文章详细解释了next数组的生成原理和递归思想,并给出了完整的C语言实现。
摘要由CSDN通过智能技术生成

字符串的模式匹配问题可以简单描述为,判断主串中是否包含子串,如果包含,要给出第1次出现子串的位置。比如,主串为believe,子串为lie,那么主串就包含子串,第1次出现的位置是在主串的第3个字符处。

朴素的模式匹配算法是进行两重循环,主串、子串分别从第1位开始,逐字比较。如果遇到不同字符,则子串重新回到第1位,与主串的第2位开始进行逐字比较,以此类推。记主串、子串长度分别为m和n,则该算法的复杂度为O(mn)。

朴素算法中,主串、子串都进行了回溯。而KMP算法对主串不回溯,仅对子串回溯,而且也不一定回溯到子串的开头。也就是说,如果比较到某一位不相同,主串的游标仍定格在这里,子串的游标回溯到前面某一位(不一定是开头),来重新与主串的该位进行对比。那么,子串究竟该回溯到哪一位,取决于子串自身的构造,我们把这个“哪一位”记为next。这部分代码如下:

//获得子串第1次在主串中出现的位置
int GetPosition(const char *p, const char *q)
{
	int i, j;
	int length_p, length_q;
	int next[MAX_SHORT];

	i = 0;
	j = 0;
	length_p = strlen(p);
	length_q = strlen(q);
	GetNextValue(q, next);
	while (i < length_p)
	{
		if (j == -1 || p[i] == q[j])
		{
			i++;
			j++;
		} 
		else
		{
			j = next[j];
		}
		if (j == length_q)
		{
			return (i - length_q + 1);
		}
	}
	return 0;
}
现在,关键就是求子串的next数组。用j来表示子串的某一位,j从0开始计,next数组的定义是:

若j = 0,则next[j] = -1。否则,next[j] = max { k | 0 < k < j-1, S0……Sk-1 = Sj-k……Sj-1 };如果该集合为空集,则next[j] = 0。

中间那个等式的意思这样的,第j位之前有j个字符了,看这j个字符的头和尾最长能有多少位相同,那么k就是多少。举个例子,abcabx,j = 5时,前面的5个字符是abcab,头ab和尾ab是最长的相同点了,因此k = 2,也即next[5] = 2。

在程序实现上,我们用递归的方法。这样想,假如已经有next[j] = k,如果再有T[j] = T[k],这里T为子串,那么对于j+1来说,前面的头和尾又多了一位相同,于是next[j+1] = next[j] + 1 = k + 1。如果运气不好,T[j] != T[k],那么接下来T[j]该与哪一位比较呢?递归去想,当然是和next[k]比较了,因为next本来就是干这件事的嘛,所以这时就让k = next[k],之后接着比较T[j]与T[k]就行了。

求next数组的代码如下:

//获得子串的next数组
void GetNextValue(const char *p, int *next)
{
	int j, k;
	int length_p;

	j = 0;
	k = -1;
	next[0] = -1;
	length_p = strlen(p);
	while (j < length_p - 1)
	{
		if (k == -1 || p[j] == p[k])
		{
			j++;
			k++;
			next[j] = k;
		} 
		else
		{
			k = next[k];
		}
	}
}
行了,到这里基本就大功告成了,KMP算法的复杂度降低到了O(m+n)。看看运行结果:



注意,无论输入主串还是子串,都不能有空白字符,否则只会读取空白之前的那一段。

完整代码如下:

#include <STDIO.H>
#include <STRING.H>

#define MAX_LONG 100
#define MAX_SHORT 20

int GetPosition(const char *, const char *);
void GetNextValue(const char *, int *);

int main(void)
{
	char long_string[MAX_LONG];
	char short_string[MAX_SHORT];
	int pos;

	printf("输入主串:");
	scanf("%s", long_string);
	printf("输入子串:");
	scanf("%s", short_string);

	pos = GetPosition(long_string, short_string);

	if (pos == 0)
	{
		printf("查找完毕,主串中不包含子串。\n");
	} 
	else
	{
		printf("查找完毕,主串中第1次出现子串是在第%d个字符处。\n", pos);
	}
	
	return 0;
}

//获得子串第1次在主串中出现的位置
int GetPosition(const char *p, const char *q)
{
	int i, j;
	int length_p, length_q;
	int next[MAX_SHORT];

	i = 0;
	j = 0;
	length_p = strlen(p);
	length_q = strlen(q);
	GetNextValue(q, next);
	while (i < length_p)
	{
		if (j == -1 || p[i] == q[j])
		{
			i++;
			j++;
		} 
		else
		{
			j = next[j];
		}
		if (j == length_q)
		{
			return (i - length_q + 1);
		}
	}
	return 0;
}

//获得子串的next数组
void GetNextValue(const char *p, int *next)
{
	int j, k;
	int length_p;

	j = 0;
	k = -1;
	next[0] = -1;
	length_p = strlen(p);
	while (j < length_p - 1)
	{
		if (k == -1 || p[j] == p[k])
		{
			j++;
			k++;
			next[j] = k;
		} 
		else
		{
			k = next[k];
		}
	}
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值