正则表达式re模块

简介

正则表达式(简称regex)是由一些特殊符号和字符组成的字符串,它们能按照某种模式匹配一系列有相似特征的字符串。

特殊符号和字符

符号描述示例
字符类表示字符或者字符集的特殊符号
literal匹配字面值literalpython只能匹配python
.匹配任意字符,除换行符\nb.b
\d匹配任意数字,等价于[0-9]data\d+\.txt
\D匹配任意非数字
\w匹配任意字母、数字、汉字字符及下划线\w+\.txt
\W匹配任意非字母、数字、汉字字符及下划线
\s匹配任意空格字符,与[\n\t\r\v\f]
\S匹配任意非空格字符
或关系匹配给的字符集中任意字符
[…]匹配字符集中的任意单一字符[aeiou]
[…x-y…]匹配x~y范围内的任意单一字符[A-Za-z0-9]
[^…]不匹配字符集中的任意字符
|或关系,mdd|xxh指的是mdd或者xxh
重复次数单个字符或者一组字符的重复次数
*匹配0次或多次前面出现的正则表达式md*可以匹配md、mdd、mddd
+匹配1次或者多次前面出现的正则表达式md*可以匹配mdd、mddd
?匹配0次或1次前面出现的正则表达式md*可以匹配md、mdd
{N}匹配N次前面出现的正则表达式[0-9]{11}匹配电话号码
{M,N}匹配M~N次前面出现的正则表达式[0-9]{3-5}能匹配
(*|+|?|{})?匹配重复出现符合的非贪婪模式(*、+、?、{}).*?[a-z]
边界类匹配边界
^匹配字符串起始部分^Dear
$匹配字符串终止部分\.com$
\b匹配单词边界\bthe\b
\B匹配非单词边界\Bmdd\B
前后向界定符示例见下
(?<=…)表示要匹配的字符串前面应该出现’…’,’…'表达式必须是常值示例见下
(?=…)表示要匹配的字符串后面应该出现’…’,’…'表达式可以是正则表达式,可以是常值示例见下
(?<!..)表示要匹配的字符串前面不应该出现’…’,’…'表达式必须是常值示例见下
(?!..)表示要匹配的字符串后面不应该出现’…’,’…'表达式可以是正则表达式,可以是常值示例见下
匹配模式比如忽略大小写,多行模式等
(?iLmsux)在正则表达式中嵌入一个或多个特殊“标记”参数
re.I不区分大小写的匹配
re.L表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M^和$分别匹配字符串中行的起始和结尾,而不是整个字符串的起始和结尾
re.S使“.”能够匹配所有字符
re.U表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X为了增加可读性,忽略空格和 # 后面的注释
组方法组方法是匹配对象提取特定组内内容的方法示例见下
…(…)…将()内的正则表达式匹配到的内容当成一个组存下来
…(?P<name>…)…为组命名name
group(num=0)匹配对象方法,num=0表示返回匹配到的整个字符串,num=n(n>1)表示返回匹配到的第n组内容
groups()匹配对象方法,返回一个包含所有匹配子组的元组
groupdict()匹配对象方法,返回一个包含所有匹配的命名子组的字典
\N匹配已保存的子组N
其它
(?#…)注释,里边的内容全部忽略

函数和方法

函数描述
compile(pattern)编译pattern返回正则表达式对象regex,re模块几乎所有函数都可以作为regex的方法
match(pattern, string)从字符串起始位置查找出现的正则表达式模式,匹配成功返回匹配对象,匹配失败返回None
search(pattren, string)尝试查找整个字符串,匹配成功返回匹配对象,失败返回None
findall(pattren, string)查找字符串中所有出现的正则表达式模式,并返回一个匹配列表
finditer(pattern, string)查找字符串中所有出现的正则表达式模式,并返回一个迭代器
split(pattern, string, max=0)根据正则表达式的模式分隔符,对字符串进行分割,返回分割后的列表,max表示最大分割次数
sub(pattern, repl, string, count=0)使用repl替换所有正则表达式的模式在字符串中出现的位置,count表示最大替换次数
sub(pattern, repl, string)同sub,但是还返回替换了几次

示例

重复次数
#正则表达式某一模块的重复
>>> url = 'nobody@www.xxx.yyy.zzz.com'
>>> re.match(r'\w+@(\w+\.)*\w+\.com', url).group() #(\w+\.)*匹配www.xxx.yyy.
'nobody@www.xxx.yyy.zzz.com'
>>>  re.match(r'\w+@(\w+\.)*\w+\.com', url).group(1) #仅保存最后一段yyy.,而不是www.xxx.yyy.
'yyy.'
前后向界定符

提取代码片段中的注释,注释位于/*和*/之间

>>> s = r"/* comment 1 */  code  /* comment 2 */"
>>> re.findall(r'(?<=/\*).+?(?=\*/)', s)
[' comment 1 ', ' comment 2 ']
匹配模式

使用(?iLmsux)系列选项,直接在正则表达式中指定一个或多个标记

#不区分大小写
>>> re.findall(r'(?i)yes', 'yes? Yes. YES!!')
['yes', 'Yes', 'YES']

#跨行搜索,不把多行字符串当成整体去匹配,而是每一行当个一个字符串去匹配
>>> s = """This line is the first,
another line,
that line, it's the best"""
>>> re.findall(r'(?im)^th[\w ]+', s) #匹配以th开头的句子,如果不使用?m的话,只能匹配出This line is the first
['This line is the first', 'that line']
组方法

使用组(re) 可以提取正则表达式中的特定内容
举个应用场景:提取s中的体重数据,观察特征可以知道就是提取体重后面的数字

>>> s = '小明电话号码1234567890,年龄30,体重180'
>>> re.search(r'体重(\d+)', s).group(1)
'180'

以搜索函数search为例:

#搜索2019和2020
>>> res = re.match(r'(\d+)[a-z]*(\d+)', 'from2019to2020')
>>> res.groups() #返回一个元组,包含所有分组
('2019', '2020')

>>> res.group(0) #返回匹配的正则表达式
'2019to2020'

>>> res.group(1) #返回匹配到的第一个组的内容,组编号从1开始
'2019'

组用在findall函数时,以列表返回所有找到的组:

>>> re.findall(r'(\d+)[a-z]*(\d+)', 'from2019to2020, from26to27')
[('2019', '2020'), ('26', '27')]

给组起特定的名字,只对search和match函数有用

>>> res = re.search(r'(?P<first>\d+)[a-z]*(?P<last>\d+)', 'from2019to2020, from26to27')
>>> res.groupdict() #返回字典,键是组名,值是内容
{'first': '2019', 'last': '2020'}

>>> res.group('first') #返回名字为first的组的内容
'2019'

检索替换函数sub中组的使用

>>> re.sub(r'(\w+?)(的成绩为)(\w+?)', r'%s\2%s' % ('mdd', 'A'), 'xxx的成绩为x')
'mdd的成绩为A'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值