正则表达式-量词

第2章 量词

2.1 一般形式

例2-1 匹配邮政编码

re.search(r"^\d\d\d\d\d\d$", "158695") != None  # True
re.search(r"^\d{6}$", "158695") != None  # True

例2-2 使用量词简化字符组

通用形式是{m,n},其中m和n是两个数字(有些人习惯在代码中的逗号之后添加空格,这样更好看,但是量词中的逗号之后不能有空格),它限定之前的元素[1]能够出现的次数,m是下限,n是上限(均为闭区间)

 例2-3 表示不确定长度的量词

量词没有指定上限,那么重复次数真的没有上限吗?

这个隐式的上限是65536

2.2 常用量词

例2-4 量词?的应用

# 以<开头,除去>字符,中间最少有一个字符,以>结尾
re.search(r"^<[^>]+>$", "<bold>") != None  # True
re.search(r"^<[^>]+>$", "<>") != None  # False

例2-5 量词+的应用

匹配双引号字符串  "[^"]*"

例2-6 量词*的应用

open tag:<[^/][^>]*>。因为[^/]必须匹配一个字符,所以“若干字符”中其他部分必须写成[^>]*,否   则它无法匹配名字为单个字符的标签,比如<b>。特点是以<开头,然后是“若干字符”(但不能以/开头),最后是>,所以对应的正则表达式是<[^/][^>]*>。

close tag:</[^>]+>。特点是以<开头,之后是/字符,然后是“若干字符(但不能以/开头)”,最后是>。

self-closing tag:<[^>]+/>。特点是以<开头,中间是“若干字符”,最后是/>。

 2.3 数据提取

re.search()如果匹配成功,返回一个MatchObject对象。这个对象包含了匹配的信息,通过调用MatchObject.group(0)来获得。调用它可以得到表达式匹配的文本。

print re.search(r"\d{6}", "de345634fd").group(0) # 345634

re.findall(pattern,string)。其中pattern是正则表达式,string是字符串。这个方法会返回一个数组,其中的元素是在string中依次寻找pattern能匹配的文本。

print re.findall(r"\d{6}", "a:345634, b:344342") # ['345634', '344342']

2.4 点号

元字符:点号 . 。一般文档里都会提到,点号可以匹配“任意字符”,点号确实可以匹配“任意字符”,常见的数字、字母、各种符号都可以

有一个字符不能由点号匹配,就是换行符\n

例2-11 换行符的匹配

忽略优先量词

如果不确定是否要匹配,忽略优先量词会选择“不匹配”的状态,再尝试表达式中之后的元素,如果尝试失败,再回溯,选择之前保存的“匹配”的状态。

 例2-15 提取网页中所有的超链接tag

<script[\s>][\s\S]+?</script>

 例2-17 用正则表达式拆解Linux/UNIX的路径

 例2-18 用正则表达式拆解Windows的路径

 2.7 转义

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值