第2章 量词
2.1 一般形式
例2-1 匹配邮政编码
re.search(r"^\d\d\d\d\d\d$", "158695") != None # True
re.search(r"^\d{6}$", "158695") != None # True
例2-2 使用量词简化字符组
通用形式是{m,n},其中m和n是两个数字(有些人习惯在代码中的逗号之后添加空格,这样更好看,但是量词中的逗号之后不能有空格),它限定之前的元素[1]能够出现的次数,m是下限,n是上限(均为闭区间)
例2-3 表示不确定长度的量词
量词没有指定上限,那么重复次数真的没有上限吗?
这个隐式的上限是65536
2.2 常用量词
例2-4 量词?的应用
# 以<开头,除去>字符,中间最少有一个字符,以>结尾
re.search(r"^<[^>]+>$", "<bold>") != None # True
re.search(r"^<[^>]+>$", "<>") != None # False
例2-5 量词+的应用
匹配双引号字符串 "[^"]*"
例2-6 量词*的应用
open tag:<[^/][^>]*>。因为[^/]必须匹配一个字符,所以“若干字符”中其他部分必须写成[^>]*,否 则它无法匹配名字为单个字符的标签,比如<b>。特点是以<开头,然后是“若干字符”(但不能以/开头),最后是>,所以对应的正则表达式是<[^/][^>]*>。
close tag:</[^>]+>。特点是以<开头,之后是/字符,然后是“若干字符(但不能以/开头)”,最后是>。
self-closing tag:<[^>]+/>。特点是以<开头,中间是“若干字符”,最后是/>。
2.3 数据提取
re.search()如果匹配成功,返回一个MatchObject对象。这个对象包含了匹配的信息,通过调用MatchObject.group(0)来获得。调用它可以得到表达式匹配的文本。
print re.search(r"\d{6}", "de345634fd").group(0) # 345634
re.findall(pattern,string)。其中pattern是正则表达式,string是字符串。这个方法会返回一个数组,其中的元素是在string中依次寻找pattern能匹配的文本。
print re.findall(r"\d{6}", "a:345634, b:344342") # ['345634', '344342']
2.4 点号
元字符:点号 . 。一般文档里都会提到,点号可以匹配“任意字符”,点号确实可以匹配“任意字符”,常见的数字、字母、各种符号都可以
有一个字符不能由点号匹配,就是换行符\n
例2-11 换行符的匹配
忽略优先量词
如果不确定是否要匹配,忽略优先量词会选择“不匹配”的状态,再尝试表达式中之后的元素,如果尝试失败,再回溯,选择之前保存的“匹配”的状态。
例2-15 提取网页中所有的超链接tag
<script[\s>][\s\S]+?</script>
例2-17 用正则表达式拆解Linux/UNIX的路径
例2-18 用正则表达式拆解Windows的路径