正则式匹配
题目
应该说,在《剑指offer》前半的题目中,正则式匹配无论是新颖程度还是难度都是比较高的一题。题目给出一个字符串和一个带有“.”与“ * ”的正则表达式,求问这个表达式和原字符串是否匹配。
其中的匹配规则是:字符 . 表示任意一个字符,而“” * “”表示它前面的字符可以出现任意次(包含0次)
举个例子:
字符串"aaa"与模式"a.a"和"ab*ac*a"均匹配
字符串"aaa"与"aa.a"和"ab*a"均不匹配
分析
题目有点绕,但是即便没接触过SQL的朋友应该也是接触过正则表达式的。简单的说就是判断.与 * 的模式匹配问题。但是这其中实际涉及很多鸡毛的细节。
这个问题的核心是 * ,对于 . 我们只需要看它是不是刚好对应一个字符位就行了,所以我们的主要精力应该放在 * 上面。
首先第一个字符肯定不为 * ,那么依循主流思想,从第二个字符是否为 * 考虑——
如果第二个字符为 * ,那么会出现以下四种情形:
字符串为“aabb”
pattern1: c*aabb 首字符不相等,只能将pattern后移两个字符;
pattern2: a*aabb 此时首字符虽然相等,但也需要把 * 前面的字符看作出现0次,才能匹配成功;
pattern3: a*abb 首字符相等,把 * 前面的字符看作出现1次,进行正常匹配;
pattern4: a*bb 首字符相等,但这时需要把 * 前面的字符看作出现多次(2次及以上),才能进行匹配。
只要这四种情况中有匹配成功的一种,那么就可以继续向下走,否则Return False
如果第二个字符不为 * ,那么就更简单一些,我们就可以直接比较字符串和正则表达式的两个首字符,不匹配就Return False,匹配的话就继续向后移动考察。
无论第二个字符是否为 * ,在向后移动的过程中,考虑递归是一种比较快捷和偷懒的形式。就是代码本身可能比较绕。
代码
# offer17-solution
class Solution:
# s, pattern都是字符串
def match(self, s, pattern):
if len(s) == 0 and len(pattern) == 0:
return True
if len(s) > 0 and len(pattern) == 0:
return False
# 当模式中的第二个字符是"*"时
if len(pattern) > 1 and pattern[1] == "*":
# 如果字符串第一个模式跟模式第一个字符匹配(相等或匹配到"."),可以有3种匹配方式:
if len(s) > 0 and (s[0] == pattern[0] or pattern[0] == '.'):
# 1、模式后移2字符,相当于X*被忽略
# 2、字符串后移1字符,模式后移两字符;
# 3、字符串后移1字符,模式不变,即继续匹配字符下一位,因为*可以匹配多位
return self.match(s, pattern[2:]) or self.match(s[1:], pattern[2:]) or self.match(s[1:], pattern)
else:
return self.match(s, pattern[2:])
# 当模式中的第二个字符不是"*"时:
# 1、如果字符串第一个字符和模式中的第一个字符匹配(相等或匹配到"."),那么字符串和模式都后移一个字符,然后匹配剩余的
if len(s) > 0 and (s[0] == pattern[0] or pattern[0] == '.'):
return self.match(s[1:], pattern[1:])
# 2、如果字符串第一个字符和模拟中的第一个字符相不匹配,直接返回false
return False