字符串匹配经典题目——KMP算法(Leetcode题解-Python语言)

28. 实现 strStr()

strStr(haystack: str, needle: str) 的作用就是在 haystack 字符串(长度为 n)中找出 needle 字符串(长度为 m)出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1 ;如果 needle 是空字符串,则返回 0。 Python 中对应的写法是 haystack.find(needle)

如果让我们自己实现这个函数,最简单的思路就是对 haystack 字符串中每个字符的位置,都用 needle 字符串试着去匹配,这样的最坏时间复杂度是 O(n * m)。KMP 算法的思路是对 needle 字符串(即模式字符串)进行预处理,用一个 Next 数组(前缀表)记录下每个字符位置作为最后一个字符时,前后缀字符串相等的最大长度。当出现一个不匹配字符时,(needle 字符串中)它的前面如果有相同的前缀和后缀,则 needle 字符串可以跳到 haystack 字符串中对应后缀的位置开始匹配,而不是 haystack 字符串中后一位的位置。

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        if not needle:
            return 0
        n, m = len(haystack), len(needle)
        Next = self.generateNext(needle)
        j = 0
        for i in range(n):
            while haystack[i] != needle[j] and j > 0:
                j = Next[j - 1]
            if haystack[i] == needle[j]:
                j += 1
            if j == m:
                return i - j + 1
        return -1

    def generateNext(self, needle: str):
        m = len(needle)
        Next = [0 for _ in range(m)]
        left = 0
        for right in range(1, m):
            while needle[left] != needle[right] and left > 0:
                left = Next[left - 1]
            if needle[left] == needle[right]:
                left += 1
            Next[right] = left
        return Next

459. 重复的子字符串

class Solution:
    def repeatedSubstringPattern(self, s: str) -> bool:
        size = len(s)
        if size == 0:
            return False
        Next = self.generateNext(s)
        if Next[size - 1] != 0 and size % (size - Next[size - 1]) == 0:
            return True
        return False

    def generateNext(self, p: str):
        m = len(p)
        Next = [0 for _ in range(m)]
        left = 0
        for right in range(1, m):
            while p[left] != p[right] and left > 0:
                left = Next[left - 1]
            if p[left] == p[right]:
                left += 1
            Next[right] = left
        return Next

把整个字符串(长度为 size)当作是 KMP 算法中的模式串(needle),对其生成 Next 数组。如果字符串是由 n 个重复子串构成的,则 Next [size - 1] 一定是记录了 n - 1 个子串的长度,即最长的相同前后缀长度为 n - 1 个子串长度。这样 (size - Next[size - 1]) 就是单个子串的长度,如果 size % (size - Next[size - 1]) == 0,就说明这个字符串是由多个重复子串构成的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法的C++代码实现:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值