KMP算法中next数组的计算(和前缀表的计算)

KMP算法中next数组的计算(和前缀表的计算)

解决问题:

  • 前缀表和next数组的关系
  • 为什么有些next数组是0,1开头,而有些next数组是-1,0开头
  • 如何计算KMP算法中的next数组

注:本文不讲解KMP算法的实现,只涉及next数组的计算

基础知识

  • 模式匹配: 从某个字符串中找出与一个给定子串相同的子串的位置。简单说就是从一个字符串中找出是否含有另一个字符串,若存在则返回位置。常用的模式匹配算法有:BF(朴素模式匹配算法或暴力匹配算法)、BM算法、RK算法、KMP算法。

  • 主串: 待查找的字符串。

  • 模式串(子串): 模式匹配就是要从主串中找到子串。

  • KMP算法: 是一种改进BF算法的模式匹配算法。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。

  • 前缀: 字符串的开头,例如字符串abcd的前缀为a, ab, abc, abcd。在KMP算法中使用的前缀为真前缀,既不包括原字符串abcd的前缀。(真前缀:a, ab, abc)

  • 后缀: 字符串的结尾,在KMP算法中同样使用的是真后缀。

  • 最长公共前后缀: 最长的相等的前缀与后缀,例如字符串ABCxyzABC的最长公共前后缀为ABC

  • 前缀表: 存储每一个前缀的最长公共前后缀的长度。

在这里插入图片描述

  • next数组: KMP算法通过这个数组来决定向右移动几位。每一位记录值的含义是如果在此处失配,模式串向右移动到next值的位置。例如:主串为aabcabcc,模式串为:abab,模式串的next数组计算得-1, 0, 0, 1。若在index=2的字符a处失配,next值为0,将模式串index=0移动到现在的index=2处,再进行匹配。

在这里插入图片描述

BF算法

BF算法就是暴力匹配算法,是最好理解的算法。就是对主串一位一位的做判断,匹配失败则将模式串向后移动一位,如下图所示。

在这里插入图片描述
在这里插入图片描述
由图可见染色的部分有22块,也就是匹配了22次才找到。在极端条件下BF算法要匹配(N-M+1)*M次(其中N为主串长度,M为模式串长度),所以BF算法的时间复杂度为O(M*N)。

KMP算法

KMP算法优化了BM算法,通过一次尽可能多的向右移动来减少匹配次数。KMP算法的时间复杂度只有O(M+N)。

KMP算法利用了最长公共前后缀的值来进行移动,如下图所示:
在这里插入图片描述

可以看到,已经匹配过的aba就不用再次进行匹配,而是从index=3的b继续匹配,相较于BF算法节省了大量匹配操作。在KMP算法中,每次移动的位置都由在此处匹配的字符其前缀的最长公共前后缀决定。

next数组

一、前缀表和next数组的关系

前缀表存储每一个前缀的最长公共前后缀的长度,next数组存储的是模式串向右移动到next值的位置,这个值与前缀的最长公共前后缀的长度有关,所以next数组是可以由前缀表生成的。

用前缀表生成一个next数组很容易,将前缀表每一位都向后移动1位(最后一位舍去)并在第一位补一个-1就得到了next数组。
在这里插入图片描述

二、为什么有些next数组是0,1开头,而有些next数组是-1,0开头

-1,0开头与0, 1开头的next数组本质是一样的。实际上,以0, 1开头的next数组就是以-1,0开头的next数组每一项加1得到的。出现这种情况的原因在于模式串起始的索引值:在程序中,一个数组的索引的起始值为0;然而在考试和书中给的模式串起始值是多从1开始。所以在考试中遇到的next数组通常是以0, 1开头;而一些程序或教程中的next数组是以-1, 0开头。

注:在考试中通常会给模式串的索引,或者会给next值的前两项,在答题时要按照题目中的要求写next数组。

三、如何计算KMP算法中的next数组(附python实现)

方法一:通过前缀表计算next数组(最易理解)

这种方法计算的是0, 1开头的next数组,如果需要-1, 0开头的next数组,将最后一行对数组每一项都加1的代码删除即可。
具体流程见上前缀表和next数组的关系的第二段

  1. 创建前缀表,长度和模式串相同,初值全为0
prefix = [0]*kmp_len
  1. 查找最长公共前后缀(傻找就完了)
# 从最长的前后缀开始找,依次找到只有一个字符。
for i in range(1, kmp_len):         # i = 1 to n-1
    # 若模式串为:kkskyyds,i为3(前缀表第4位的值)
    # 则找kksk的最长公共前后缀(通过下面的循环)
    for j in range(i, 0, -1):       # j = i to 1
        # j = 3 --- kks不等于ksk
        # j = 2 --- kk不等于sk
        # j = 1 --- k等于k,最长公共前后缀长度为1,所以prefix[i] = j
        # 假若在j = 1时还找不到最长公共前后缀,则next值不变为0
        str1 = kmp_str[0:j]
        str2 = kmp_str[i-j+1:i+1]
        if str1 == str2:
            prefix[i] = j
            break
  1. 计算完前缀表了,现在对前缀表后移1位,再在第一位加一个-1
prefix.insert(0,-1) # 第一项添加-1
prefix.pop(-1)      # 删除最后一项
  1. 对数组每一项都加1(若要-1, 0开头的next数组就不需要这行代码)
kmp_next1 = [i+1 for i in prefix]   
# 或者:kmp_next1 = list(map(lambda x:x+1, prefix))

全部代码:

def calc_next(kmp_str, kmp_len):
	prefix = [0]*kmp_len

	for i in range(1, kmp_len):
	    for j in range(i, 0, -1):
	        str1 = kmp_str[0:j]
	        str2 = kmp_str[i-j+1:i+1]
	        if str1 == str2:
	            prefix[i] = j
	            break
	            
	prefix.insert(0,-1)
	prefix.pop(-1)
	kmp_next = [i+1 for i in prefix] 
	# kmp_next = prefix
	return kmp_next
方法二:直接计算next数组(和方法一没有本质区别)

这种方法直接计算next数组(以0, 1开头)。既然方法一中要移位还要添加-1并删除最后一位,可以提前添加好一位,并且不计算最后一位。

  1. 创建next数组
# 前两位为[0, 1],其余位全是1
kmp_next2 = [1]*kmp_len
kmp_next2[0] = 0
  1. 找此位置前一个位置的最长公共前后缀(注意找的时候不带当前位置的字符)
for i in range(2, kmp_len):         # i = 2 to n-1
    for j in range(i-1, 0, -1):     # j = i-1 to 0
        # 实际上就是找前一位的最长公共前后缀
        if kmp_str[0:j] == kmp_str[i-j:i]:
            # 这里就是在next的基础上每一项都加1
            kmp_next2[i] = j + kmp_next2[i]
            break

全部代码:

def calc_next(kmp_str, kmp_len):
	kmp_next = [1]*kmp_len
	kmp_next[0] = 0
	
	for i in range(2, kmp_len):
	    for j in range(i-1, 0, -1):
	        if kmp_str[0:j] == kmp_str[i-j:i]:
	            kmp_next[i] = j + kmp_next[i]
	            break
	return kmp_next
方法三:动态求解next数组

借助动态规划的思想,当计算一个字符串的最长公共前后缀时,通过使用已经找好的next表快速计算。
具体流程如下(开头为0, 1的next数组):

  1. 找到要算字符的前一个字符c0的next值对应的字符c1
  2. 对比前一个字符c0和对应字符c1
  3. 相等,则next值为c0的index值加1;
  4. 不相等,则c1的next值对应的字符c2,将c0与c2是否相等。
  5. 相等,则next值为c1的index值加1(等价于c0的next值加1);
  6. 不相等,则以此类推找c2的next对应的字符c3,对比c0与c3。注意,当c2的index为1时,结束,c0的next设为1。

例如:设模式串为abaabacd,计算index等于5时的next值

index12345678
主串abaabacd
next数组0112?

① 找到index = 5 前一个字符,index = 4的字符为a,其next值为2,index = 2对应的字符为b
② 对比 b 和 a 不相等,b的next值为1,,index = 1对应的字符为a
③ 对比 a 和 a 相等,index = 5的next值为b对应的字符a的index值加1,既为1+1=2

总的来说:如果到第一个字符都没有找到相等的字符,则next值设置为1。对比到一个相等的字符,则next值等于此字符的index值+1。

下图是所有next值的对比流程(连线代表两个字符进行对比,字符相等输出右边的next值+1,不相等继续对比,直到找到最左边的字符还不相等next值为1):
在这里插入图片描述
全部代码:

def calc_next(kmp_str, kmp_len):
	kmp_next = [1]*kmp_len
	kmp_next[0] = 0    # next的前两项为0,1
	
	for i in range(2, kmp_len):
	    strCompare0 = kmp_str[i-1]      # 前一个字符
	    n = kmp_next[i-1]               # 前一个字符对应的next值
	    strCompare1 = kmp_str[n-1]      # 对应字符
	    
	    while True:
	        if strCompare0 == strCompare1:
	            kmp_next[i] = n+1
	            break
	        elif n == 1:
	            break
	        else:
	            n = kmp_next[n-1]
	            strCompare1 = kmp_str[n-1]
		return kmp_next
KMP算法是一种用于字符串匹配的高效算法,其中的next数组是该算法的核心部分之一。next数组用于记录模式串中每个位置的最长公共前缀最长公共后缀的长度。 具体来说,next数组的定义如下: 1. next = -1,示模式串的第一个字符没有前缀后缀。 2. 对于模式串中的每个位置i(1 <= i < 模式串长度),next[i]示模式串前缀子串[0, i-1]中最长的既是前缀又是后缀的子串的长度。 通过构建next数组,可以在匹配过程中根据已匹配的前缀信息来决定下一步的移动位置,从而避免不必要的比较。 下面是构建next数组的步骤: 1. 初始化next = -1,j = 0,i = 1。 2. 当i < 模式串长度时,执行以下步骤: - 如果模式串的第i个字符与模式串的第j个字符相等,则令next[i] = j,i++,j++。 - 如果模式串的第i个字符与模式串的第j个字符不相等: - 如果j = 0,则令next[i] = 0,i++。 - 如果j != 0,则令j = next[j],回溯到上一个最长公共前缀最长公共后缀的长度,继续比较。 构建完next数组后,可以根据next数组来进行字符串匹配,具体步骤如下: 1. 初始化文本串的指针i = 0,模式串的指针j = 0。 2. 当i < 文本串长度时,执行以下步骤: - 如果文本串的第i个字符与模式串的第j个字符相等,则i++,j++。 - 如果j = 模式串长度,则示匹配成功,返回匹配位置。 - 如果文本串的第i个字符与模式串的第j个字符不相等: - 如果j = 0,则i++。 - 如果j != 0,则令j = next[j],回溯到上一个最长公共前缀最长公共后缀的长度,继续比较。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值