12、Python 标准库:正则表达式(re)


一、正则表达式简介

  • 正则表达式(regular expression)是一种用于匹配字符串或者子串形式的强大逻辑表达式,在 Python 中的 re 模块提供了正则表达式的支持。
  • 正则表达式由一些一般字符和一些元字符组成
    • 一般字符包括:大小写的字母和数字,只能匹配自身
    • 元字符包括:. \ [...]、预定义字符集、数量词、边界匹配、逻辑分组等,具有特殊的含义

这里写图片描述


二、正则表达式的使用

  • 当我们在 Python 中使用正则表达式时,re 模块内部会干两件事情:
    • 编译正则表达式,如果正则表达式的字符串本身不合法,会报错
    • 用编译后的正则表达式去匹配字符串
    • 如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配
  • p = re.compile(pattern, flags=0) # 预编译
    • 用于将字符串形式的正则表达式编译为 pattern 对象,第二个参数 flag 是匹配模式,一般用不到
    • 预编译时,pattern 最好加上 r 前缀,这样就不用考虑转义的问题了
  • p.findall(string) or re.findall(pattern, string, flags=0) # 按照模式搜索
    • 搜索 string,以列表形式返回全部能匹配的子串
  • 代码实践
import re

p = re.compile(r'\d+')
p.findall('one11 two2three333 four4five55')
> ['11', '2', '333', '4', '55']

# 对于 * 和 + 这种默认贪婪的匹配可以加上 ? 使之变为非贪婪匹配
p = re.compile(r'\d+?')
p.findall('one11 two2three333 four4five55')
> ['1', '1', '2', '3', '3', '3', '4', '5', '5']

# 匹配子串,用()表示:要提取的分组
p = re.compile(r'(\w+)@([\w.]+)')
str = 'purple alice@jisuanke.com, blah monkey bob@abc.com blah dishwasher'
p.findall(str)
> [('alice', 'jisuanke.com'), ('bob', 'abc.com')]

# 匹配字符串
p = re.compile(r'\w+@[\w.]+')
re.findall(str)
> ['alice@jisuanke.com', 'bob@abc.com']

三、参考资料

1、正则表达式官方文档
2、Python 正则表达式指南
3、廖雪峰 re 模块介绍

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值