LeetCode-10-正则表达式匹配

最新推荐文章于 2024-08-21 18:19:42 发布

CodAlun

最新推荐文章于 2024-08-21 18:19:42 发布

阅读量211

点赞数

分类专栏：算法

原文链接：https://leetcode-cn.com/problems/regular-expression-matching/solution/zheng-ze-biao-da-shi-pi-pei-by-leetcode-solution/

版权

算法专栏收录该内容

61 篇文章 1 订阅

订阅专栏

题目

来源：LeetCode.

给你一个字符串 s 和一个字符规律 p，请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。

'.' 匹配任意单个字符
'*' 匹配零个或多个前面的那一个元素
所谓匹配，是要涵盖 整个 字符串 s的，而不是部分字符串。

示例 1：

输入：s = "aa" p = "a"
输出：false
解释："a" 无法匹配 "aa" 整个字符串。

示例 2:

输入：s = "aa" p = "a*"
输出：true
解释：因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

示例 3：

输入：s = "ab" p = ".*"
输出：true
解释：".*" 表示可匹配零个或多个（'*'）任意字符（'.'）。

示例 4：

输入：s = "aab" p = "c*a*b"
输出：true
解释：因为 '*' 表示零个或多个，这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

示例 5：

输入：s = "mississippi" p = "mis*is*p*."
输出：false

提示：

0 <= s.length <= 20
0 <= p.length <= 30
s 可能为空，且只包含从 a-z 的小写字母。
p 可能为空，且只包含从 a-z 的小写字母，以及字符 . 和 *。
保证每次出现字符 * 时，前面都匹配到有效的字符

看到这个问题我首先想到的方法就是如何匹配字符串，结果看了官方的题解才知道要用动态规划，裂开。

接下来看一下解题思路：

方法：

题目中的匹配是一个「逐步匹配」的过程：我们每次从字符串 $p$ 中取出一个字符或者「字符 + 星号」的组合，并在 $s$ 中进行匹配。对于 $p$ 中一个字符而言，它只能在 $s$ 中匹配一个字符，匹配的方法具有唯一性；而对于 $p$ 中字符 + 星号的组合而言，它可以在 $s$ 中匹配任意自然数个字符，并不具有唯一性。因此我们可以考虑使用动态规划，对匹配的方案进行枚举。

我们用 $d p [i] [j]$ 表示 $s$ 的前 ii 个字符与 $p$ 中的前 $j$ 个字符是否能够匹配。在进行状态转移时，我们考虑 $p$ 的第 $j$ 个字符的匹配情况：

如果 $p$ 的第 $j$ 个字符是一个小写字母，那么我们必须在 $s$ 中匹配一个相同的小写字母，即
$\begin{cases} dp[i - 1][j - 1], & \text{$s[i] = p[j]$} \\ false, & \text{$s[i] \not= p[j]$} \end{cases}$

也就是说，如果 $s$ 的第 $i$ 个字符与 $p$ 的第 $j$ 个字符不相同，那么无法进行匹配；否则我们可以匹配两个字符串的最后一个字符，完整的匹配结果取决于两个字符串前面的部分。

如果 $p$ 的第 $j$ 个字符是 $*$ ，那么就表示我们可以对 $p$ 的第 $j - 1$ 个字符匹配任意自然数次。在匹配 $0$ 次的情况下，我们有

$d p [i] [j] = d p [i] [j - 2]$

也就是我们「浪费」了一个字符 + 星号的组合，没有匹配任何 $s$ 中的字符。

在匹配 $\text{1,2,3,⋯ }$ 次的情况下，类似地我们有

$\begin{cases} dp[i][j]=dp[i−1][j−2], & \text{$if \ s[i]=p[j−1]$} \\ dp[i][j]=dp[i−2][j−2], & \text{$if \ s[i−1]=s[i]=p[j−1]$} \\ dp[i][j]=dp[i−3][j−2], & \text{$if \ s[i−2]=s[i−1]=s[i]=p[j−1]$} \\ ⋯⋯ \end{cases}$

如果我们通过这种方法进行转移，那么我们就需要枚举这个组合到底匹配了 $s$ 中的几个字符，会增导致时间复杂度增加，并且代码编写起来十分麻烦。我们不妨换个角度考虑这个问题：字母 + 星号的组合在匹配的过程中，本质上只会有两种情况：

$1 .$ 匹配 $s$ 末尾的一个字符，将该字符扔掉，而该组合还可以继续进行匹配；

$2 .$ 不匹配字符，将该组合扔掉，不再进行匹配。

如果按照这个角度进行思考，可以写出很精巧的状态转移方程：

$\begin{cases} dp[i - 1][j] or dp[i][j - 2], &\text{$s[i] = p[j - 1]$} \\ dp[i][j - 2], &\text{$s[i] \not= p[j - 1]$} \end{cases}$

在任意情况下，只要 $p [j]$ 是 .，那么 $p [j]$ 一定成功匹配 $s$ 中的任意一个小写字母。

最终的状态转移方程如下：
$\begin{cases} \text{$if(p[j]) \not= '*')$}= \begin{cases} dp[i - 1][j - 1], &\text{$matches(s[i], p[j])$} \\ false, &\text{$otherwise$} \\ \end{cases} \\ \text{$otherwise=$} \begin{cases} dp[i - 1][j] or dp[i][j - 2], &\text{$matches(s[i], p[j - 1])$} \\ dp[i][j - 2], &\text{$otherwise$} \end{cases} \end{cases}$

其中 $\text{matches(x,y)}$ 判断两个字符是否匹配的辅助函数。只有当 $y$ 是 $.$ 或者 $x$ 和 $y$ 本身相同时，这两个字符才会匹配。

细节

动态规划的边界条件为 $\text{true}$ ，即两个空字符串是可以匹配的。最终的答案即为 $d p [m] [n]$ ，其中 $m$ 和 $n$ 分别是字符串 $s$ 和 $p$ 的长度。由于大部分语言中，字符串的字符下标是从 $0$ 开始的，因此在实现上面的状态转移方程时，需要注意状态中每一维下标与实际字符下标的对应关系。

public boolean isMatch(String s, String p) {
    int m = s.length();
    int n = p.length();

    boolean[][] dp = new boolean[m + 1][n + 1];
    dp[0][0] = true;

    for (int i = 0; i <= m; ++i) {
        for (int j = 1; j <= n; ++j) {
            if (p.charAt(j - 1) == '*') {
                if (matches(s, p, i, j - 1)) {
                    dp[i][j] = dp[i - 1][j] || dp[i][j - 2];
                } else {
                    dp[i][j] = dp[i][j - 2];
                }
            } else {
                if (matches(s, p, i, j)) {
                    dp[i][j] = dp[i - 1][j - 1];
                }
            }
        }
    }
    return dp[m][n];
}
// 单个字符匹配
private boolean matches(String s, String p, int i, int j) {
    if (i == 0) {
        return false;
    }
    if (p.charAt(j - 1) == '.') {
        return true;
    }
    return s.charAt(i - 1) == p.charAt(j - 1);
}