LeetCode-algorithms 10. Regular Expression Matching

最新推荐文章于 2022-04-26 19:10:32 发布

FeizChong

最新推荐文章于 2022-04-26 19:10:32 发布

阅读量339

点赞数

本文链接：https://blog.csdn.net/FeizChong/article/details/60333349

版权

题目：

'.' Matches any single character.
'*' Matches zero or more of the preceding element.

The matching should cover the entire input string (not partial).

The function prototype should be:
bool isMatch(const char *s, const char *p)

Some examples:
isMatch("aa","a") → false
isMatch("aa","aa") → true
isMatch("aaa","aa") → false
isMatch("aa", "a*") → true
isMatch("aa", ".*") → true
isMatch("ab", ".*") → true
isMatch("aab", "c*a*b") → true

思路：

因为正则表达式这个思想，很容易就让人联想到状态机，那么我们最开始的做法应该是，先识别正则表达式里面有多少个独立的表达式，如a*b*则有a* 和 b*两个状态机。

步骤1：分割正则表达式。这里我把有*号和没*号的分开，因为有*号的状态机可以跳转到自己，因此严格意义来说是两个不同的状态机。

接下来就是一个一个字符输入状态机里面看看是否匹配了。这里有几个地方需要注意的。对于单字符状态机，如“a”、“.”，跳转条件只有两个个，就是匹配，并且转到下个状态机，或者匹配失败，return false（当然对于“.”不存在匹配失败）；对于带* 号的状态机，匹配成功的跳转方向有两个个，一个是成功跳转回自己，一个是跳转到下一个字符；因此，如果把每一个状态看成一个节点，所跳转的状态为子节点，则可以把整一个匹配的流程看成一棵树，因此我的想法是遍历这棵树，以寻找成功的节点。

对于每个状态state，储存还没匹配的字符串s'以及有可能匹配的正则表达式，表示为[s',re_list],其中re_list为分割出来的正则表达式。起始节点则储存原始字符串S和P里面所有分割好的正则表达式。使用深度优先搜索，每次pop栈的最后一个，并且把可能跳转的所有情况push到队列的尾部，直到检测到正确的节点。如果队列为空，则证明s和p不匹配。

匹配成功有两种可能，一种是s'为最后一个字符，并且re_list为最后一个正则表达式，并且两者相匹配。另一种是s‘为最后一个字符，并且s'与re_list中第一个正则表达式匹配，除了第一个正则以外，接下来的正则表达式都带有*号。因此只要出现这两种情况，则可以return True。

样例里面有一个特别恶心的例子s = "aaaaaaaaaaaaaaab",p="a*a*a*a*a*a*a*a*b".很明显这种情况是匹配的，但是由于有很多个带*号的正则式，这样会使得整棵树的规模很庞大，因此在分割表达式的时候，可以注意到 a*和a*a*....其实是一样的，因此可以吧重复的带*号的正则表达式合并在一起，这样在运算的时候可以减少开支。

代码：

class Solution(object):
    def allZero(self,re):
        for r in re:
            if "*" not in r:
                return False
        return True
        
    def isMatch(self,s, p):
        if "*" not in p and "." not in p:
            return s == p
            
        re = []
        i = 0
        while i < len(p):
            if i < len(p) - 1 and p[i+1] == "*":
                if len(re) == 0 or p[i]+p[i+1] != re[-1]:
                    re.append(p[i]+p[i+1])
                i += 2
            else:
                re.append(p[i])
                i += 1
                
        if len(s) == 0:
            return self.allZero(re)
        already = []
        stack = []
        stack.append([s,re])
        while len(stack) != 0:
            state = stack.pop()
            s_string = state[0]
            c = s_string[0]
            s_re = state[1]
            if s_re[0][0] == "." or c == s_re[0][0]:
                next_s = state[0][1:]
                next_re = s_re[1:]
                if len(next_s)+len(next_re) == 0 or (len(next_s) == 0 and self.allZero(next_re)):
                    return True
                elif len(next_s)*len(next_re)!= 0:
                    if [next_s,next_re] not in already:
                        stack.append([next_s,next_re])
                        already.append([next_s,next_re])
                if "*" in s_re[0] and len(next_s) != 0:
                    if [next_s,s_re] not in already:
                        stack.append([next_s,s_re])
                        already.append([next_s,s_re])
            if "*" in s_re[0] and len(s_re) > 1:
                next_re = s_re[1:]
                if [s_string,next_re] not in already:
                    stack.append([s_string,next_re])
                    already.append([s_string,next_re])
        return False

结果：