面试题19-正则表达式匹配

Emperorist

已于 2022-09-07 00:50:43 修改

阅读量721

点赞数 1

文章标签：正则表达式前端后端

于 2021-10-29 00:27:03 首次发布

本文链接：https://blog.csdn.net/weixin_42127177/article/details/121026278

版权

这篇博客探讨了两种实现正则表达式匹配的方法：状态机和动态规划。状态机方法通过分析字符和'*'的匹配规则，处理不同状态的转移。动态规划方法则通过建立二维数组记录字符串和模式的匹配状态，利用状态转移方程优化匹配过程。博客提供了具体的C++代码示例，并讨论了动态规划解法中的状态转移细节和时间、空间复杂度。

摘要由CSDN通过智能技术生成

题目：

请实现一个函数用来匹配包含.和*的正则表达式。模式中的字符.表示任意一个字符，而*表示它前面的字符可以出现任意次（含0次）。匹配是指字符串的所有字符匹配整个模式。例如，字符串“aaa”与模式“a.a”和“abaca”匹配，但与“aa.a”和“ab*a”均不匹配。

方法一：状态机

我们先来分析下如何匹配一个字符，现在只考虑字符’.‘，不考虑’*'：

如果字符串和模式串的当前字符相等，那么我们继续匹配它们的下一个字符；如果模式串中的字符是’.'，那么它可以匹配字符串中的任意字符，我们也可以继续匹配它们的下一个字符。

接下来，把字符’*'考虑进去，它可以匹配任意次的字符，当然出现0次也可以。

我们分两种情况来看：

模式串的下一个字符不是’*‘，也就是上面说的只有字符’.'的情况。
如果字符串中的第一个字符和模式串中的第一个字符相匹配，那么字符串的模式串都向后移动一个字符，然后匹配剩余的字符串和模式串。如果字符串中的第一个字符和模式中的第一个字符不相匹配，则直接返回false。

模式串的下一个字符是’*'，此时就要复杂一些。
因为可能有多种不同的匹配方式。

选择一：无论字符串和模式串当前字符相不相等，我们都将模式串后移两个字符，相当于把模式串中的当前字符和’‘忽略掉，因为’'可以匹配任意次的字符，所以出现0次也可以。

选择二：如果字符串和模式串当前字符相等，则字符串向后移动一个字符。而模式串此时有两个选择：

1、我们可以在模式串向后移动两个字符，继续匹配；

2、也可以保持模式串不变，这样相当于用字符’‘继续匹配字符串，也就是模式串中的字符’'匹配字符串中的字符多个的情况。

用一张图表示如下：
在这里插入图片描述
如上图所示，当匹配进入状态2，并且字符串中的字符是’a’时，我们有两个选择：可以进入状态3（在模式串向后移动两个字符），也可以回到状态2（模式串保持不变）。

除此之外，还要注意对空指针的处理。

#include<iostream>
using namespace std;

class Solution19
{
public:
	bool match(char *str, char*pattern)
	{
		if (str == nullptr || pattern == nullptr)
			return false;
		return matchCore(str, pattern);
	}
	bool matchCore(char*str, char*pattern)
	{
		if (*str == '\0'&&*pattern == '\0')
			return true;
		if (&str != '\0'&&*pattern == '\0')
			return false;
		if (*(pattern + 1) == '*')
		{
			if (*pattern == *str || (*pattern == '.'&&*str != '\0'))
				//move on the next state
				return matchCore(str + 1, pattern + 2)
				//stay on the current state
				|| matchCore(str + 1, pattern)
				//ignore a'*'
				|| matchCore(str, pattern + 2);
			else
				return matchCore(str, pattern + 2);
		}
		if (*str = *pattern || (*pattern == '.'&&*str != '\0'))
			return matchCore(str+1, pattern + 1);
		return false;
	}
};

int main()
{		
	char str[] = "aaa";
	char pattern[] = "aB*AC*";
	Solution19 s;
	s.match(str, pattern);
	system("pause");
	return 0;
}

方法二：动态规划

题目中的匹配是一个「逐步匹配」的过程：我们每次从字符串 p 中取出一个字符或者「字符 + 星号」的组合，并在 s 中进行匹配。对于 p 中一个字符而言，它只能在 s 中匹配一个字符，匹配的方法具有唯一性；而对于 p 中字符 + 星号的组合而言，它可以在 s 中匹配任意自然数个字符，并不具有唯一性。因此我们可以考虑使用动态规划，对匹配的方案进行枚举。

我们用f[i][j] 表示 s 的前 i 个字符与 p 中的前 j 个字符是否能够匹配。在进行状态转移时，我们考虑 p 的第 j 个字符的匹配情况：

1.如果 p 的第 j 个字符是一个小写字母，那么我们必须在 s 中匹配一个相同的小写字母，即
在这里插入图片描述
也就是说，如果 s 的第 i 个字符与 p 的第 j 个字符不相同，那么无法进行匹配；否则我们可以匹配两个字符串的最后一个字符，完整的匹配结果取决于两个字符串前面的部分。
2.如果 p 的第 j 个字符是 *，那么就表示我们可以对 p 的第 j−1 个字符匹配任意自然数次。在匹配 0 次的情况下，我们有
在这里插入图片描述
也就是我们「浪费」了一个字符 + 星号的组合，没有匹配任何 s 中的字符。

在匹配 1,2,3,⋯ 次的情况下，类似地我们有
在这里插入图片描述
如果我们通过这种方法进行转移，那么我们就需要枚举这个组合到底匹配了 s 中的几个字符，会增导致时间复杂度增加，并且代码编写起来十分麻烦。我们不妨换个角度考虑这个问题：字母 + 星号的组合在匹配的过程中，本质上只会有两种情况：

匹配 ss 末尾的一个字符，将该字符扔掉，而该组合还可以继续进行匹配；
不匹配字符，将该组合扔掉，不再进行匹配。

如果按照这个角度进行思考，我们可以写出很精巧的状态转移方程：
在这里插入图片描述
3.在任意情况下，只要 p[j] 是 .，那么 p[j] 一定成功匹配 s 中的任意一个小写字母。
最终的状态转移方程如下：

其中 matches(x,y) 判断两个字符是否匹配的辅助函数。只有当 y 是 . 或者 x 和 y 本身相同时，这两个字符才会匹配。
细节

动态规划的边界条件为 f[0][0]=true，即两个空字符串是可以匹配的。最终的答案即为 f[m][n]，其中 m 和 n 分别是字符串 s 和 p 的长度。由于大部分语言中，字符串的字符下标是从 0 开始的，因此在实现上面的状态转移方程时，需要注意状态中每一维下标与实际字符下标的对应关系。

在上面的状态转移方程中，如果字符串 p 中包含一个「字符 + 星号」的组合（例如 a*），那么在进行状态转移时，会先将 a 进行匹配（当 p[j] 为 a 时），再将 a* 作为整体进行匹配（当 p[j] 为 * 时）。然而，在题目描述中，我们必须将 a* 看成一个整体，因此将 a 进行匹配是不符合题目要求的。看来我们进行了额外的状态转移，这样会对最终的答案产生影响吗？这个问题留给读者进行思考。

class Solution {
public:
    bool isMatch(string s, string p) {
        int m = s.size();
        int n = p.size();

        auto matches = [&](int i, int j) {
            if (i == 0) {
                return false;
            }
            if (p[j - 1] == '.') {
                return true;
            }
            return s[i - 1] == p[j - 1];
        };

        vector<vector<int>> f(m + 1, vector<int>(n + 1));// 0 1 也是bool变量
        f[0][0] = true;
        for (int i = 0; i <= m; ++i) {
            for (int j = 1; j <= n; ++j) {
                if (p[j - 1] == '*') {
                    f[i][j] |= f[i][j - 2];
                    if (matches(i, j - 1)) {
                        f[i][j] |= f[i - 1][j];
                    }
                }
                else {
                    if (matches(i, j)) {
                        f[i][j] |= f[i - 1][j - 1];
                    }
                }
            }
        }
        return f[m][n];
    }
};

//labuladong
class Solution {
public:
    bool isMatch(string s, string p) {
        return dp(s,0,p,0);
    }
    bool dp(string & s,int i,string&p,int j)
    {
        int m=s.size(),n=p.size();
        if(j==n)
            return i==m;
        if(i==m)
        {
            if((n-j)%2==1)
                return false;
            for(;j+1<n;j+=2)
            {
                if(p[j+1]!='*')
                    return false;
            }    
            return true;
        }
        //string key=to_string(i)+","+to_string(j);
        //if(memo.count(key)) return memo[key];  去除重复状态
        bool res=false;
        if(s[i]==p[j]||p[j]=='.')
        {
            if(j<n-1&&p[j+1]=='*')
                res=dp(s,i,p,j+2)||dp(s,i+1,p,j);
            else
                res=dp(s,i+1,p,j+1);
        }
        else{
            if(j<n-1&&p[j+1]=='*')
                res=dp(s,i,p,j+2);
            else
                res=false;
        }
        return res;

    }
};