KMP算法

题目:

        给定两个字符串 str 和 match,长度分别为 N 和 M ,实现一个算法,如果字符串str中含有子串match,则返回match在str中的开始位置,不含有返回-1

举例:

       str = "acbc",  match =  "bc",  则返回2。

       str = "acbc",  match =  "bcc", 则返回-1.


KMP算法思路:

1.首先生成match字符串的next数组, 数组的长度与match字符串的长度一样,next[i] 表示在 match[i] 之前的字符串 match[0...i-1]中,必须以match[i-1] 结尾的

  后缀子串(不含match[0])与必须以match[0]开头的前缀子串(不含match[i-1])最大匹配长度是多少。这个长度就是next[i]的值。

2.假设从str[i] 字符出发时,匹配到 j 位置的字符发现与match中的字符不一致。也就是说,str[i] 与 match[0] 一样,并且从这个位置开始一直可以匹配,即str[i...j-1]

   与match[0...j-i-1] 一样,直到发现str[j] != match[j - i] , 匹配停止。

3. 下一次匹配检查不再像普通解法那样退回到str[i+1] 重新开始与 match[0] 的匹配过程,而是直接让str[j] 与 match[k] 进行匹配检查,然后进行后序的匹配检查。

int getIndexOf(string s, string m)
{
	if(m.length() < 1 || s.length() < m.length())
		return -1;
	int i=0, j=0;
	vector<int> next(m.length());
	getNext(m, next);
	while(i < s.length() && j < m.length())
    {
		if(s[i] == m[j])
	    {
			i++;
			j++;
		}
		else if(next[j] == -1)
			i++;
		else
			j = next[j];
	}
	return j == m.length() ? i - j : -1;
}

next数组的求解:

对于match[0]来说,在它之前没有字符,规定next[0] = -1,   对match[1] 来说,在它之前有match[0], 但next数组的定义要求任何子串的后缀不能包括第一个字符(match[0]),

所以match[1] 之前的字符串只有长度为0的后缀字符串,所以next[1] = 0.  对于 i > 1 的match[i]  的next数组求解如下:

1.  因为从左往右求解next,所以在求解next[i] 时, next[0....i-1] 的值都已经求出。通过next[i-1]的值可以知道B字符前的最长前缀与最长后缀匹配区域,然后看字符c 与字符B是

     否相等。

     

2. 如果字符C与字符B相等,那么A字符之前的字符串的最长前缀与最长后缀匹配区域就可以确定,前缀子串为 L区域 + C字符, 后缀子串为 K区域 + B字符,

    即next[i] = next[i-1] + 1

3. 如果字符C与字符B不相等,就看字符C之前的前缀和后缀匹配情况,假设字符C是第cn个字符(match[cn]),那么next[cn] 就是其最长前缀和后缀匹配长度

     m区域和n区域分别是字符C之前的字符串的最长匹配的后缀与前缀区域,这是通过next[cn]确定的。当然这两个区域是相等的,m' 区域为 k 区域最右的

    区域且长度与m区域一样,因为 k 区域与 L 区域是相等的,所以 m 区域和 m' 区域也相等,字符 D 为 n 区域之后的一个字符,接下来比较字符 D 是否与字符 B 相等。

               1)如果相等,A 字符之前的字符串的最长前缀与后缀陪陪区域就可以确定,前缀子串为 n 区域 + D 字符, 后缀子串为 m' 区域 + B 字符, 则next[i] = next[cn] + 1

               2)如果不等,继续前往跳到字符 D , 之后的过程与调到字符 C 类似,一直进行这样的跳过程, 跳的每一步都会有一个新的字符和B比较(就像C字符和C字符

                    一 样),只要有相等的情况, next[i] 的值就能确定。

4. 如果向前跳到最左位置(即match[0] 的位置), 此时 next[0] == -1 , 说明字符 A 之前的字符串不存在前缀和后缀匹配的情况,则令 next[i] = 0,   用这种不断向前跳的方式

   可以算出正确的next[i] 值的原因还是因为每跳一个位置 cn, next[cn] 的意义就表示它之前字符串的最大匹配长度。


void getNext(string& m, vector<int>& next)
{
	next[0] = -1;
	if(m.length() == 1)
		return ;
	next[1] = 0;
	int pos = 2;
	int cn = 0;
	while(pos < next.size())
	{
		if(cn == -1 || m[pos-1] == m[cn])
			next[pos++] = ++cn;
		else //if(cn > 0)
			cn = next[cn];
		//else
			//next[pos++] = 0;
	}
}








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值