leetcode正则表达式匹配（暴力，动态规划）

最新推荐文章于 2024-07-29 22:28:05 发布

steer_z

最新推荐文章于 2024-07-29 22:28:05 发布

阅读量225

点赞数

分类专栏：保研机试准备文章标签： leetcode 字符串正则表达式

本文链接：https://blog.csdn.net/qq_40931241/article/details/105190892

版权

保研机试准备专栏收录该内容

6 篇文章 0 订阅

订阅专栏

题目

链接：leetcode 10题正则表达式匹配

给你一个字符串 s 和一个字符规律 p，请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。
'.' 匹配任意单个字符
'*' 匹配零个或多个前面的那一个元素
所谓匹配，是要涵盖 整个 字符串 s的，而不是部分字符串。

说明:
s 可能为空，且只包含从 a-z 的小写字母。
p 可能为空，且只包含从 a-z 的小写字母，以及字符 . 和 *。

示例 1:

输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

暴力解法

使用递归的方法，每一步只考虑当下。
代码如下：

bool isMatch(string s, string p) {
        if (p.empty())
            return s.empty();
        bool first_match = !s.empty() && (p[0] == s[0] || p[0] == '.');
        if (p.length() >= 2 && p[1] == '*') {
            return isMatch(s,p.substr(2)) || (first_match && isMatch(s.substr(1),p)); 
        }
        else{
            return first_match && isMatch(s.substr(1),p.substr(1));
        }
    }

代码解释：

当模式字符串空的时候，若被匹配的串也为空，则返回true，否则返回false（如此写的逻辑动态规划部分）。
考虑当下的一个字符，在模式串没有空且被匹配字符串也没空的情况下，比较两个串的第一个字符（要考虑"."），来判断当前的字符是否匹配，将结果给bool变量first_match。
关键，若当前模式串长度大于等于2且当前模式串的第二个字符为通配符"*"的时候（通配符不会出现在模式串的第一个字符），我们要考虑两种情况：一种是，通配符前面的字符不出现，不管第一个字符匹配得上还是匹配不上，之间将模式串前两个串忽略掉，然后开始匹配模式串p从第3个字符开始的字串与s串（比如p=a*ab,s=ab,这时便是p的第1个字符a与s的第1个字符a匹配成功，但直接跳过a与通配符可以成功匹配的案例）；第二种是，通配符前面的字符必须要出现才可能完成匹配，所以要求，first_match为真，然后开始匹配p串和s从第2个字符开始的字串。
若暂时没有通配符出现，那就在first_match为真的情况下，继续p串和s串都先后移一个字符，继续调用递归函数，继续匹配。

动态规划&记忆化搜索

我们可以将上述递归的代码表现为如下的形式：

bool isMatch(int i,int j) {
	isMatch(i+2,j)；
	isMatch(i,j+1);
	isMatch(i+1,j+1);
}
从(i,j)到(i+2,j+2),至少有两条路径：
1. (i,j)->(i,j+1)->(i,j+2)->(i+2,j+2)
2. (i,j)->(i+1,j+1)->(i+2,j+2)
所以必然存在大量的重复计算。
所以可以优化。
所以存在重叠子问题。
所以可以使用动态规划以及记忆化搜索。

自顶向下的记忆化搜索

和直接搜索很类似，只是加了一个dp二维数组，同时，搜索时，用i和j作为变量，分别指向p串和s串。
代码如下：

class Solution {
public:
    vector<vector<int> > dp;
    long long s_length,p_length;
    string str,pat;
    bool dpMatch(int i,int j) {
        if ( i < p_length && j < s_length && dp[i][j] != 0) 
            return dp[i][j] == 1;
        if (i >= p_length) {
            if (j >= s_length)  {
                return true;
            }
            else {
                return false;
            }
        }
        bool first_match = j < s_length && (str[j] == pat[i] || pat[i] == '.');
        if (p_length - i >= 2 && pat[i+1] == '*') {
            if (dpMatch(i+2,j) || (first_match && dpMatch(i,j+1)) )
                dp[i][j] = 1;
            else 
                dp[i][j] = 2;
        }
        else {
            if (first_match && dpMatch(i+1,j+1)) {
                dp[i][j] = 1；
            }
            else
                dp[i][j] = 2;
        }
        return dp[i][j] == 1;
    }

    bool isMatch(string s, string p) {
        for (int i = 0;i <= p.length();i++) { \\注意一定小于等于
            vector<int> tmp;
            for (int j = 0;j <= s.length();j++) {
                tmp.push_back(0);
            }
            dp.push_back(tmp);
        }
        s_length = s.length();
        p_length = p.length();
        str = s;
        pat = p;
        return dpMatch(0,0);
        
    }
};

代码解释：
其实，思路很简单，和递归代码都是自顶向下，所以基本结构相同，只是换了种表示方式，不再重复解释代码的意思。
出现的问题与经验教训：

递归结束条件的问题，为什么要写当模式字符串空的时候，若被匹配的串也为空，则返回true，否则返回false？为什么不写当其中一个为空，另一个不为空的时候返回false，否则返回true呢？思考例子，p=aa*，s=a，这样很显然，s空，但p不空，依然可以匹配成功，所以不可由此判断出true或者false。
dp数组开多大的问题，因为在p_length - i >= 2的情况可能会触发dpMatch(i+2,j)，此时i+2 = p_length，如果dp数组的这一个维度只开了p_length的长度，此时便已经发生缓冲区溢出。所以此维度的至少要开p_length+1，所以我在初始化dp的这个维度的时候使用的<=号。
开数组尽量大一些，这样能避免一些内存相关的错误，向上面这个问题我debug了好久，反正多开些内存也不要钱。
一开始可以写暴力，暴力递归时只关注当下变好，然后再考虑优化。