题目
给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。
'.' 匹配任意单个字符
'*' 匹配零个或多个前面的那一个元素
所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。
说明:
s 可能为空,且只包含从 a-z 的小写字母。
p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。
示例 1:
输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。
示例 2:
输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。
暴力解法
使用递归的方法,每一步只考虑当下。
代码如下:
bool isMatch(string s, string p) {
if (p.empty())
return s.empty();
bool first_match = !s.empty() && (p[0] == s[0] || p[0] == '.');
if (p.length() >= 2 && p[1] == '*') {
return isMatch(s,p.substr(2)) || (first_match && isMatch(s.substr(1),p));
}
else{
return first_match && isMatch(s.substr(1),p.substr(1));
}
}
代码解释:
- 当模式字符串空的时候,若被匹配的串也为空,则返回true,否则返回false(如此写的逻辑动态规划部分)。
- 考虑当下的一个字符,在模式串没有空且被匹配字符串也没空的情况下,比较两个串的第一个字符(要考虑"."),来判断当前的字符是否匹配,将结果给bool变量first_match。
- 关键,若当前模式串长度大于等于2且当前模式串的第二个字符为通配符"*"的时候(通配符不会出现在模式串的第一个字符),我们要考虑两种情况:一种是,通配符前面的字符不出现,不管第一个字符匹配得上还是匹配不上,之间将模式串前两个串忽略掉,然后开始匹配模式串p从第3个字符开始的字串与s串(比如p=a*ab,s=ab,这时便是p的第1个字符a与s的第1个字符a匹配成功,但直接跳过a与通配符可以成功匹配的案例);第二种是,通配符前面的字符必须要出现才可能完成匹配,所以要求,first_match为真,然后开始匹配p串和s从第2个字符开始的字串。
- 若暂时没有通配符出现,那就在first_match为真的情况下,继续p串和s串都先后移一个字符,继续调用递归函数,继续匹配。
动态规划&记忆化搜索
我们可以将上述递归的代码表现为如下的形式:
bool isMatch(int i,int j) {
isMatch(i+2,j);
isMatch(i,j+1);
isMatch(i+1,j+1);
}
从(i,j)到(i+2,j+2),至少有两条路径:
1. (i,j)->(i,j+1)->(i,j+2)->(i+2,j+2)
2. (i,j)->(i+1,j+1)->(i+2,j+2)
所以必然存在大量的重复计算。
所以可以优化。
所以存在重叠子问题。
所以可以使用动态规划以及记忆化搜索。
自顶向下的记忆化搜索
和直接搜索很类似,只是加了一个dp二维数组,同时,搜索时,用i和j作为变量,分别指向p串和s串。
代码如下:
class Solution {
public:
vector<vector<int> > dp;
long long s_length,p_length;
string str,pat;
bool dpMatch(int i,int j) {
if ( i < p_length && j < s_length && dp[i][j] != 0)
return dp[i][j] == 1;
if (i >= p_length) {
if (j >= s_length) {
return true;
}
else {
return false;
}
}
bool first_match = j < s_length && (str[j] == pat[i] || pat[i] == '.');
if (p_length - i >= 2 && pat[i+1] == '*') {
if (dpMatch(i+2,j) || (first_match && dpMatch(i,j+1)) )
dp[i][j] = 1;
else
dp[i][j] = 2;
}
else {
if (first_match && dpMatch(i+1,j+1)) {
dp[i][j] = 1;
}
else
dp[i][j] = 2;
}
return dp[i][j] == 1;
}
bool isMatch(string s, string p) {
for (int i = 0;i <= p.length();i++) { \\注意一定小于等于
vector<int> tmp;
for (int j = 0;j <= s.length();j++) {
tmp.push_back(0);
}
dp.push_back(tmp);
}
s_length = s.length();
p_length = p.length();
str = s;
pat = p;
return dpMatch(0,0);
}
};
代码解释:
其实,思路很简单,和递归代码都是自顶向下,所以基本结构相同,只是换了种表示方式,不再重复解释代码的意思。
出现的问题与经验教训:
- 递归结束条件的问题,为什么要写当模式字符串空的时候,若被匹配的串也为空,则返回true,否则返回false?为什么不写当其中一个为空,另一个不为空的时候返回false,否则返回true呢?思考例子,p=aa*,s=a,这样很显然,s空,但p不空,依然可以匹配成功,所以不可由此判断出true或者false。
- dp数组开多大的问题,因为在p_length - i >= 2的情况可能会触发dpMatch(i+2,j),此时i+2 = p_length,如果dp数组的这一个维度只开了p_length的长度,此时便已经发生缓冲区溢出。所以此维度的至少要开p_length+1,所以我在初始化dp的这个维度的时候使用的<=号。
- 开数组尽量大一些,这样能避免一些内存相关的错误,向上面这个问题我debug了好久,反正多开些内存也不要钱。
- 一开始可以写暴力,暴力递归时只关注当下变好,然后再考虑优化。