{m,n}是通用形式的量词,正则表达式还有三个常用量词,分别是+、?、*。它们的形态虽然不同于{m,n},功能却是相同的(也可以把它们理解为"量词简记法"),具体说明见表2-2。
表2-2 常用量词
常用量词 | {m,n}等价形式 | 说明 |
* | {0,} | 可能出现,也可能不出现,出现次数没有上限 |
+ | {1,} | 至少出现1次,出现次数没有上限 |
? | {0,1} | 至多出现1次,也可能不出现 |
在实际应用中,在很多情况只需要表示这三种意思,所以常用量词的使用频率要高于{m,n},下面分别说明。
大家都知道,美国英语和英国英语有些词的写法是不一样的,比如traveler和traveller,如果希望"通吃"traveler和traveller,就要求第2个l是"至多出现1次,也可能不出现"的,正好使用?量词:travell?er,如例2-4所示。
例2-4 量词?的应用
re.search(r"^travell?er$", "traveler") != None # => True re.search(r"^travell?er$", "traveller") != None # => True
其实这样的情况还有很多,比如favor和favour、color和colour。此外还有很多其他应用场合,比如http和https,虽然是两个概念,但都是协议名,可以用https?匹配;再比如表示价格的字符串,有可能是100也有可能是¥100,可以用¥?100匹配 。
量词也广泛应用于解析HTML代码。HTML是一种"标签语言",它包含各种各样的tag(标签),比如<head>、<img>、<table>等,这些tag的名字各异,形式却相同:从<开始,到>结束,在<和>之间有若干字符,"若干"的意思是长度不确定,但不能为0(<>并不是合法的tag),也不能是>字符 。如果要用一个正则表达式匹配所有的tag,需要用<匹配开头的<,用>匹配结尾的>,用[^>]+匹配中间的"若干字符",所以整个正则表达式就是<[^>]+>,程序如例2-5所示。
例2-5 量词+的应用
re.search(r"^<[^>]+>$", "<bold>") != None # => True re.search(r"^<[^>]+>$", "</table>") != None # => True re.search(r"^<[^>]+>$", "<>") != None # => False
类似的,也可以使用正则表达式匹配双引号字符串。不同的是,双引号字符串的两个双引号之间可以没有任何字符,""也是一个完全合法的双引号字符串,应该使用量词*,于是整个正则表达式就成了"[^"]*",程序见例2-6。
例2-6 量词*的应用
re.search(r"^\"[^\"]*\"$", "\"some\"") != None # => True re.search(r"^\"[^\"]*\"$", "\"\"") != None # => True
注:字符串之中表示双引号需要转义写成\",这并不是正则表达式中的规定,而是为字符串转义考虑。
量词的使用有很多学问,不妨多看几个tag匹配的例子:tag可以粗略分为open tag和close tag,比如<head>就是open tag,而</html>就是close tag;另外还有一类标签是self-closing tag,比如<br/>。现在来看分别匹配这三类tag的正则表达式。
open tag的特点是以<开头,然后是"若干字符"(但不能以/开头),最后是>,所以对应的正则表达式是<[^/][^>]*>;注意:因为[^/]必须匹配一个字符,所以"若干字符"中其他部分必须写成[^>]*,否则它无法匹配名字为单个字符的标签,比如<b>。
close tag的特点是以<开头,之后是/字符,然后是"若干字符(但不能以/开头)",最后是>,所以对应的正则表达式是</[^>]+>;
self-closing tag的特点是以<开头,中间是"若干字符",最后是/>,所以对应的正则表达式是<[^>]+/>。注意:这里不是<[^>/]+/>,排除型字符组只排除>,而不排除/,因为要确认的只是在结尾的>之前出现/,如果写成<[^>/]+/>,则要求tag内部不能出现/,就无法匹配<img src="http://somehost/picture" />这类的tag了。
表2-3列出了匹配几类tag的表达式。
表2-3 各类tag的匹配
匹配所有tag的表达式 | tag分类 | 匹配分类tag的表达式 |
<[^>]+> | open tag | <[^/>][^>]*> |
close tag | </[^>]+> | |
self-closing tag | <[^>/]+/> |
对比表格中"匹配所有tag的表达式"和"匹配分类tag的表达式",可以发现它们的模式是相近的,只是细节上有差异。也就是说,通过变换字符组和量词,可以准确控制正则表达式能匹配的字符串的范围,达到不同的目的。这其实是使用正则表达式时的一条根本规律:使用合适的结构(包括字符组和量词),精确表达自己的意图,界定能匹配的文本。
再仔细观察,你或许会发现,匹配open tag的表达式,也可以匹配self-closing tag:<[^/][^>]*>能够匹配<br/>,因为[^>]*并不排除对/的匹配。那么将表达式改为<[^/][^>]*[^/]>,就保证匹配的open tag不会以/>结尾了。
不过这会产生新的问题:<[^/][^>]*[^/]>能匹配的tag,在<和>之间出现了两个[^/],上一章已经讲过,排除型字符组表示"在当前位置,匹配一个没有列出的字符",所以tag里的字符串必须至少包含两个字符,这样就无法匹配<u>了。
仔细想想,真正要表达的意思是,在tag内部的字符串不能以/开头,也不能以/结尾,如果这个字符串只包含一个字符,那么它既是开头,又是结尾,使用两个排除型字符组显然是不合适的,看起来没办法解决了。实际上,只是现有的知识还不足够解决这个问题而已,在第68页有这个问题的详细解法。