# 【LeetCode】实现 strStr()字符串匹配 (KMP算法,BM算法,RK算法)

【LeetCode】实现 strStr()字符串匹配 (KMP算法,BM算法,RK算法,)

1. KMP算法

KMP算法的核心是next数组的创建!。(模式串的next数组)
在这里插入图片描述
出现了不匹配,如果是BF(Brute Force)的主串的指针需要回到下标5处的B,而模式串指针需要回到下标0处。但KMP算法的字符串匹配有两个不同,第一是主串的指针无需回退第二是模式串的指针只需要按照next数组中对应的数进行回退即可
在这里插入图片描述

next数组中的重要知识点是字符串中的真前缀与真后缀:
字符串abbacd为例:
真前缀为{a,ab,abb,abba,abbac}
真后缀为{d,cd,acd,bacd,bbacd}
最长的相同真前后缀是:无.
而它的子串abba的最长的相同真前后缀是:a.
都是不包含原字符串本身的!

next数组:

next[0]为-1 是为了后面到模式串第一字符都不匹配主串时做的一个next标记,因为此时已经无法next数组跳跃了。在这里插入图片描述

求next数组需要两个指针,一前(k)一后(j)。k是当前匹配到的真前缀最终位置,j是当前真后缀的最终位置。通过移动它们来找到最长的相同真前后缀
(前缀是固定的,后缀是相对的)
abbaccab模式串的next数组如图:
在这里插入图片描述

例如k与j移动到了如下位置:
在这里插入图片描述
图片对于j来说,子串【0,j-1】的最长相同直前后缀分别是【0,k-1】与【j-k,j-1】,即这两区段内容相同。
此时会出现两个情况:
一.
k与j所指的字符是相等的,那么k与j都向后移动一位。next[++j] = ++k;
二.
k = next[k];
k与j所指的字符不是相等的,那么需要向当前的真前缀的区间里找到最长的真前后缀,然后用这真前缀中的真前缀的最终字符与当前的j进行比较,这里又回到了最开始的两种情况了。
在这里插入图片描述
引用:

next[k]代表 [0, k - 1] 区段中最长相同真前后缀的长度。如图,用左侧两个椭圆来表示这个最长相同真前后缀,即这两个椭圆代表的区段内容相同;同理,右侧也有相同的两个椭圆。所以 else 语句就是利用第一个椭圆和第四个椭圆内容相同来加快得到 [0, j - 1] 区段的相同真前后缀的长度。细心的朋友会问 if 语句中k== -1存在的意义是何?第一,程序刚运行时,k 是被初始为-1,直接进行P[k] == P[j]判断无疑会边界溢出;第二,else 语句中k = next[k],k是不断后退的,若 k在后退 中被赋值为 -1(也就是k= next[0]),在P[k] == P[j]判断也会边界溢出。综上两点,其意义就是 为了特殊边界判断。p表示模式串。
最后是对next[k]所指字符与j所指字符进行比较。

代码如下:

	public int strStr(String haystack, String needle) {
        if(needle == null||haystack == null||needle.length() == 0)
        	return 0;
        if(haystack.length()<needle.length()||haystack.length() == 0) 
        	return -1;

        int next[] = getNext(needle);
        int p = 0;
        int m = 0;
        while(m<haystack.length()&&p<needle.length()){
        	p=p==-1?0:p;
        	if(haystack.charAt(m)==needle.charAt(p)) {
        		p++;
        		m++;
        	}else {
        		if(p==0)
        			m++;
        		p = next[p];
        	}
        	
        }
        
        if(p==needle.length()) {
        	return m-p;
        }
        
        return -1;
		
    }
	

	public int[] getNext(String needle) {
		int len = needle.length();
		int next[] = new int[len];
		//将next数组的零下标初始为-1是为了便于后面操作的实现
		next[0] = -1; 
		int k = -1;
		int j = 0;
		while(j<len-1) {
			if(k == -1||needle.charAt(k)==needle.charAt(j)) {
				next[++j] = ++k;
			}else {
				k = next[k];
			}
		}
		
		return next;
	}

如果没看懂下面是大神的博客:
大神的KMP详解博客地址

.

二.BM算法

是一种比KMP算法更有效的算法。倒着匹配后缀匹配
BM算法的两大核心就是1.坏字符规则2.好后缀规则

三.RK算法

KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法的C++代码实现
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值