模式串匹配——Hash、MP与KMP算法超详解

QwQshark

已于 2022-04-14 13:03:11 修改

阅读量1.4k

点赞数

文章标签：算法 c++

于 2022-04-14 13:00:31 首次发布

本文链接：https://blog.csdn.net/Codesharks/article/details/124084081

版权

本文详细介绍了模式串匹配的算法，包括暴力匹配、Hash、MP算法和KMP算法，讲解了每种策略的时间复杂度和优化过程，其中MP算法通过减少回溯次数提高效率，KMP算法进一步优化了常数。文章适合对字符串匹配感兴趣的读者学习。

摘要由CSDN通过智能技术生成

题目描述

这是一道模板题。
给定一个字符串 $S$ 和一个字符串 $T$ ，求 $S$ 在 $T$ 中的出现次数。 $S$ 和 $T$ 中的字符均为英语大写字母或小写字母。
$S$ 中不同位置出现的 $T$ 可重叠。

输入格式

输入共两行，分别是字符串 $S$ 和字符串 $T$ 。

输出格式

输出一个整数，表示 $T$ 在 $S$ 中的出现次数。

输入样例

abcabcabd
abcabd

样例输出

数据范围

$\leq |S|, |T| \leq 10^6$ ， $S, T$ 仅包含大小写字母。

题目解答

在解决这道题之前，我们先要了解一些关于字符串的基本知识->：

后缀：指从某一位置 $i$ 开始到整个字符串 $S$ 末尾的一个子串，表示为 $\text{Suffix}(S, i)$ 。
真后缀指的是除了 $S$ 本身的 $S$ 的后缀。
前缀：指从 $S$ 的串首到某一位置 $i$ 的一个子串，表示为 $\text{Prefix}(S, i)$ 。
真前缀指的是除了 $S$ 本身的 $S$ 的前缀。

例如， $a b$ 就是 $a b c d$ 的前缀和真前缀， $y x a$ 是 $a x y x a$ 的后缀和真后缀。
$z y z$ 是 $z y z$ 的前缀和后缀，但它不是 $z y z$ 真前缀或是真后缀。

而题目要求我们从 $S$ 统计 $T$ 出现的次数，那我们就将 $S$ 串称为主串， $T$ 串称为模式串，从 $S$ 中找 $T$ 的过程就叫模式串匹配。

了解完这些后，让我们进入正题吧——如何进行快速模式串匹配？

（声明：接下来所有的字符串和数组的下标都从 $0$ 开始）

策略一—— $O (m n)$ 爆炒

作为一个合格的蒟蒻，开始做题是想的不是正解，~~而是暴力~~。很容易想到可以暴力双指针维护，先从主串 $S$ 和模式串 $T$ 的首位字符开始比较：

若两个值相等，继续比较它们的下一位字符
若不相等，模式串 $T$ 的字符回退到第一个字符，在与 $S$ 的二个字符进行比较
若 $T$ 中的所有字符都与 $S$ 中跟它比较的字符对应相等，那么答案++

直到 $S$ 中的字符比较完毕，即可得到答案。代码如下：

#include <bits/stdc++.h>
using namespace std;
int ans, len1, len2;
char s[1000005], t[1000005];

int main()
{
   
    scanf("%s %s", s, t);
    len1 = strlen(s), len2 = strlen(t);
    for (int i = 0; i < len1 - len2 + 1; i++)
    {
   
        bool mark = true;
        for (int j = 0; j < len2; j++)
            if (s[i + j] != t[j])
            {
   
                mark = false;
                break;
            }
        if (mark)
            ans++;
    }
    printf("%d", ans);
    return 0;
}