next数组最简单求解方式和KMP算法匹配

        KMP算法(Knuth-Morris-Pratt算法)是一种在文本字符串中高效查找子串(模式串)出现位置的算法。它避免了最简单的暴力匹配方法中的大量回溯,通过构建一个next数组(或者称为“部分匹配表”)来指导匹配过程。

        我看了网上很多人的方法,感觉都没有把next数组该如何求解的问题说明白。因此,我在仔细钻研了王道还有数据结构等教材后,总结出了下面的求解方法。

Next数组构建方法:

        公式:next[j]=前后缀最长公共子序列长度+1

        规定:第一个和第二个元素的next值分别为0、1

例题1

        看下图的例子,求解子串【abcac】的next数组:

第一步:

        由规定前两个值分别为0、1,我们直接看第三个字符【c】,字符【c】之前的串为【ab】

        前缀:【a】

        后缀:【b】

        没有最长公共子序列,因此前后缀最长公共子序列长度:0

        next[3]=0+1=1

第二步:

        我们看第四个字符【a】,字符【a】之前的串为【abc】

        前缀:【a】,【ab】

        后缀:【c】,【bc】

        没有最长公共子序列,因此前后缀最长公共子序列长度:0

        next[4]=0+1=1

第三步:

        我们看第五个字符【c】,字符【c】之前的串为【abca】

        前缀:【a】,【ab】,【abc】

        后缀:【a】,【ca】,【bca】

        存在最长公共子序列【a】,因此前后缀最长公共子序列长度:1

        next[5]=1+1=2

例题2

        看下图的例子,求解子串【abaabcaba】的next数组:

第一步:

        由规定前两个值分别为0、1,我们直接看第三个字符【a】,字符【a】之前的串为【ab】

        前缀:【a】

        后缀:【b】

        没有最长公共子序列,因此前后缀最长公共子序列长度:0

        next[3]=0+1=1

第二步:

        我们看第四个字符【a】,字符【a】之前的串为【aba】

        前缀:【a】,【ab】

        后缀:【a】,【ba】

        存在最长公共子序列【a】,因此前后缀最长公共子序列长度:1

        next[4]=1+1=2

第三步:

        我们看第五个字符【b】,字符【b】之前的串为【abaa】

        前缀:【a】,【ab】,【aba】

        后缀:【a】,【aa】,【baa】

        存在最长公共子序列【a】,因此前后缀最长公共子序列长度:1

        next[5]=1+1=2

第四步:

        我们看第六个字符【c】,字符【c】之前的串为【abaab】

        前缀:【a】,【ab】,【aba】,【abaa】

        后缀:【b】,【ab】,【aab】,【baab】

        存在最长公共子序列【ab】,因此前后缀最长公共子序列长度:2

        next[6]=2+1=3

第五步:

        我们看第七个字符【a】,字符【a】之前的串为【abaabc】

        前缀:【a】,【ab】,【aba】,【abaa】,【abaab】

        后缀:【c】,【bc】,【abc】,【aabc】,【baabc】

        没有最长公共子序列,因此前后缀最长公共子序列长度:0

        next[7]=0+1=1

第六步:

        我们看第八个字符【b】,字符【b】之前的串为【abaabca】

        前缀:【a】,【ab】,【aba】,【abaa】,【abaab】,【abaabc】

        后缀:【a】,【ca】,【bca】,【abca】,【aabca】,【baabca】

        存在最长公共子序列【a】,因此前后缀最长公共子序列长度:1

        next[8]=1+1=2

第七步:

        我们看第九个字符【a】,字符【a】之前的串为【abaabcab】

        前缀:【a】,【ab】,【aba】,【abaa】,【abaab】,【abaabc】,【abaabca】

        后缀:【b】,【ab】,【cab】,【bcab】,【abcab】,【aabcab】,【baabcab】

        存在最长公共子序列【ab】,因此前后缀最长公共子序列长度:2

        next[9]=2+1=3

KMP算法匹配:

        公式:右移位数=已匹配字符数-最后一个匹配字符next值

        规则:当子串与主串的字符发生失配时,子串右移,指针不变动,然后从指针指向主串当前位置开始重新匹配

例题1

【2015统考真题】已知字符串S为'abaabaabacacaabaabcc',模式串t为'abaabc'。采用KMP算法进行匹配,第一次出现“失配”(s[i]≠t[j])时,i=j=5,则下次开始匹配时,i和j的值分别是()。

A.i=1,j=0                     B.i=5,j=0                     C.i=5,j=2                     D.i=6,j=2

解答:

先计算模式串t的next数组,如图所示

第一次进行匹配,子串第6个字符【c】与主串S第6个字符【a】失配,此时i=j=5,说明主串和模式串的位序从0开始排列,子串右移,进行下一次匹配

目前已匹配字符数为5

子串最后一个匹配字符为【b】,其next值为2

因此,右移位数=5-2=3

指针不变动,此时从主串第6个字符和子串第3个字符开始匹配,即从主串s[5]和子串t[2]开始,因此,i=5,j=2,答案选C

例题2

【2019统考真题】设主串T='abaabaabcabaabc',模式串S='abaabc'。采用KMP算法进行模式匹配,到匹配成功时为止,在匹配过程中进行的单个字符间的比较次数是()。

A.9                        B.10                        C.12                        D.15

解答:

先计算模式串S的next数组,如图所示

第一次进行匹配,子串第6个字符【c】与主串T第6个字符【a】失配,子串右移,进行下一次匹配,第一次匹配字符一共比较了6次

目前已匹配字符数为5

子串最后一个匹配字符为【b】,其next值为2

因此,右移位数=5-2=3

第二次进行匹配,指针不变动,此时从主串第6个字符和子串第3个字符开始匹配,匹配成功,第二次匹配字符一共比较了4次

因此两次匹配字符总共比较了6+4=10次,答案选B

### 回答1: KMP算法中的next数组原理是通过模式串自身的匹配信息,来确定在匹配失败时,模式串应该向右移动多少位,以便尽可能地减少匹配次数。具体来说,next数组中的每个元素表示模式串中当前字符之前的子串中,最长的既是前缀又是后缀的字符串的长度。在匹配过程中,当模式串的某个字符与文本串的某个字符不匹配时,就可以利用next数组中的信息,将模式串向右移动尽可能少的位数,以便尽快找到下一个可能匹配的位置。这样就可以大大提高匹配效率,避免不必要的重复匹配。 ### 回答2: KMP算法中的next数组是用来存储模式串中每个字符前面的最长公共前缀和最长公共后缀的长度。它的主要作用是在模式串匹配过程中,当出现匹配失败时,通过next数组中存储的信息,来确定下一次匹配的起始位置,避免不必要的回溯。 具体的原理如下:首先,我们需要对模式串进行预处理,得到next数组。开始时,next数组的第一个元素next[0]为-1,第二个元素next[1]为0。然后,从第三个元素开始依次计算next[i]的值。 假设已经计算得到了next[0]~next[i-1]的值,现在需要计算next[i]。比较模式串的前缀和后缀,如果它们的前缀和后缀相同,那么next[i]的值就是该相同前缀的长度加1。如果不相同,则需要继续寻找更短的相同前缀和后缀。通过不断地回溯,直到找到相同的前缀和后缀,或者回溯到模式串的开头,此时next[i]的值为0。 在实际匹配时,当出现匹配失败时,可以根据next数组的值,来确定将模式串右移多少个位置,从而找到下一次匹配的起始位置。相较于暴力搜索的方法,KMP算法利用了已经匹配过的信息,减少了回溯的次数,提高了匹配效率。 通过next数组KMP算法在O(n+m)的时间复杂度内完成匹配操作,其中n为主串的长度,m为模式串的长度,相较于朴素的字符串匹配算法的时间复杂度O(n*m),提供了明显的优化。 ### 回答3: KMP算法是一种字符串匹配算法,用于在一个主串中查找子串。而KMP算法中的核心思想是通过预处理模式串(子串)构建一个next数组,用于指导匹配过程中的模式串移动操作。 next数组存储的是模式串中每个位置的最长公共前后缀的长度。这样,在匹配过程中,当发生不匹配时,我们可以根据next数组中的值来决定移动模式串的位置。 具体的next数组构建过程如下: 1. 初始化next数组,第一个元素next[0]为-1。 2. 从模式串的第二个字符开始遍历至最后一个字符,计算每个位置i的next[i]的值。 a. 若模式串的前缀和后缀的最长公共前后缀长度为k,在位置i的字符匹配失败之后,可以将模式串移动的位置设置为k,继续下一轮的匹配。 b. 若位置i之前的最长公共前后缀长度为k,而第i个字符不匹配,则根据next[k]的值来更新当前位置i的next[i]值,即next[i] = next[k]。 c. 若位置i之前的最长公共前后缀长度为k,而第i个字符匹配成功,则当前位置i的next[i]值为k+1。 d. 重复上述步骤,直至计算完成所有位置的next值。 通过构建好的next数组,可以在匹配过程中根据当前字符不匹配时的next值来决定模式串的移动位置,从而实现快速的字符串匹配。 总结来说,KMP算法中的next数组原理即模式串的最长公共前后缀长度,用于指导匹配过程中的模式串移动操作,提高了算法的效率。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值