正则表达式re模块

最新推荐文章于 2022-06-15 16:10:13 发布

_Mdd_

最新推荐文章于 2022-06-15 16:10:13 发布

阅读量180

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/sinat_36494740/article/details/103881756

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

简介

正则表达式（简称regex）是由一些特殊符号和字符组成的字符串，它们能按照某种模式匹配一系列有相似特征的字符串。

特殊符号和字符

符号	描述	示例
字符类	表示字符或者字符集的特殊符号
literal	匹配字面值literal	python只能匹配python
.	匹配任意字符，除换行符\n	b.b
\d	匹配任意数字，等价于[0-9]	data\d+\.txt
\D	匹配任意非数字
\w	匹配任意字母、数字、汉字字符及下划线	\w+\.txt
\W	匹配任意非字母、数字、汉字字符及下划线
\s	匹配任意空格字符，与[\n\t\r\v\f]
\S	匹配任意非空格字符
或关系	匹配给的字符集中任意字符
[…]	匹配字符集中的任意单一字符	[aeiou]
[…x-y…]	匹配x~y范围内的任意单一字符	[A-Za-z0-9]
[^…]	不匹配字符集中的任意字符
\|	或关系，mdd\|xxh指的是mdd或者xxh
重复次数	单个字符或者一组字符的重复次数
*	匹配0次或多次前面出现的正则表达式	md*可以匹配md、mdd、mddd
+	匹配1次或者多次前面出现的正则表达式	md*可以匹配mdd、mddd
?	匹配0次或1次前面出现的正则表达式	md*可以匹配md、mdd
{N}	匹配N次前面出现的正则表达式	[0-9]{11}匹配电话号码
{M,N}	匹配M~N次前面出现的正则表达式	[0-9]{3-5}能匹配
(*\|+\|?\|{})?	匹配重复出现符合的非贪婪模式（*、+、?、{}）	.*?[a-z]
边界类	匹配边界
^	匹配字符串起始部分	^Dear
$	匹配字符串终止部分	\.com$
\b	匹配单词边界	\bthe\b
\B	匹配非单词边界	\Bmdd\B
前后向界定符		示例见下
(?<=…)	表示要匹配的字符串前面应该出现’…’，’…'表达式必须是常值	示例见下
(?=…)	表示要匹配的字符串后面应该出现’…’，’…'表达式可以是正则表达式，可以是常值	示例见下
(?<!..)	表示要匹配的字符串前面不应该出现’…’，’…'表达式必须是常值	示例见下
(?!..)	表示要匹配的字符串后面不应该出现’…’，’…'表达式可以是正则表达式，可以是常值	示例见下
匹配模式	比如忽略大小写，多行模式等
(?iLmsux)	在正则表达式中嵌入一个或多个特殊“标记”参数
re.I	不区分大小写的匹配
re.L	表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M	^和$分别匹配字符串中行的起始和结尾，而不是整个字符串的起始和结尾
re.S	使“.”能够匹配所有字符
re.U	表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X	为了增加可读性，忽略空格和 # 后面的注释
组方法	组方法是匹配对象提取特定组内内容的方法	示例见下
…(…)…	将()内的正则表达式匹配到的内容当成一个组存下来
…(?P<name>…)…	为组命名name
group(num=0)	匹配对象方法，num=0表示返回匹配到的整个字符串，num=n(n>1)表示返回匹配到的第n组内容
groups()	匹配对象方法，返回一个包含所有匹配子组的元组
groupdict()	匹配对象方法，返回一个包含所有匹配的命名子组的字典
\N	匹配已保存的子组N
其它
(?#…)	注释，里边的内容全部忽略

函数和方法

函数	描述
compile(pattern)	编译pattern返回正则表达式对象regex，re模块几乎所有函数都可以作为regex的方法
match(pattern, string)	从字符串起始位置查找出现的正则表达式模式，匹配成功返回匹配对象，匹配失败返回None
search(pattren, string)	尝试查找整个字符串，匹配成功返回匹配对象，失败返回None
findall(pattren, string)	查找字符串中所有出现的正则表达式模式，并返回一个匹配列表
finditer(pattern, string)	查找字符串中所有出现的正则表达式模式，并返回一个迭代器
split(pattern, string, max=0)	根据正则表达式的模式分隔符，对字符串进行分割，返回分割后的列表，max表示最大分割次数
sub(pattern, repl, string, count=0)	使用repl替换所有正则表达式的模式在字符串中出现的位置，count表示最大替换次数
sub(pattern, repl, string)	同sub，但是还返回替换了几次

示例

重复次数

#正则表达式某一模块的重复
>>> url = 'nobody@www.xxx.yyy.zzz.com'
>>> re.match(r'\w+@(\w+\.)*\w+\.com', url).group() #(\w+\.)*匹配www.xxx.yyy.
'nobody@www.xxx.yyy.zzz.com'
>>>  re.match(r'\w+@(\w+\.)*\w+\.com', url).group(1) #仅保存最后一段yyy.，而不是www.xxx.yyy.
'yyy.'

前后向界定符

提取代码片段中的注释，注释位于/*和*/之间

>>> s = r"/* comment 1 */  code  /* comment 2 */"
>>> re.findall(r'(?<=/\*).+?(?=\*/)', s)
[' comment 1 ', ' comment 2 ']

匹配模式

使用(?iLmsux)系列选项，直接在正则表达式中指定一个或多个标记

#不区分大小写
>>> re.findall(r'(?i)yes', 'yes? Yes. YES!!')
['yes', 'Yes', 'YES']

#跨行搜索，不把多行字符串当成整体去匹配，而是每一行当个一个字符串去匹配
>>> s = """This line is the first,
another line,
that line, it's the best"""
>>> re.findall(r'(?im)^th[\w ]+', s) #匹配以th开头的句子，如果不使用?m的话，只能匹配出This line is the first
['This line is the first', 'that line']

组方法

使用组(re) 可以提取正则表达式中的特定内容
举个应用场景：提取s中的体重数据，观察特征可以知道就是提取体重后面的数字

>>> s = '小明电话号码1234567890，年龄30，体重180'
>>> re.search(r'体重(\d+)', s).group(1)
'180'

以搜索函数search为例：

#搜索2019和2020
>>> res = re.match(r'(\d+)[a-z]*(\d+)', 'from2019to2020')
>>> res.groups() #返回一个元组，包含所有分组
('2019', '2020')

>>> res.group(0) #返回匹配的正则表达式
'2019to2020'

>>> res.group(1) #返回匹配到的第一个组的内容，组编号从1开始
'2019'

组用在findall函数时，以列表返回所有找到的组：

>>> re.findall(r'(\d+)[a-z]*(\d+)', 'from2019to2020, from26to27')
[('2019', '2020'), ('26', '27')]

给组起特定的名字，只对search和match函数有用

>>> res = re.search(r'(?P<first>\d+)[a-z]*(?P<last>\d+)', 'from2019to2020, from26to27')
>>> res.groupdict() #返回字典，键是组名，值是内容
{'first': '2019', 'last': '2020'}

>>> res.group('first') #返回名字为first的组的内容
'2019'

检索替换函数sub中组的使用

>>> re.sub(r'(\w+?)(的成绩为)(\w+?)', r'%s\2%s' % ('mdd', 'A'), 'xxx的成绩为x')
'mdd的成绩为A'

_Mdd_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式re模块

文章目录前向界定：(?<=…)表示要匹配的字符串前面应该出现’…’，’…'表达式必须是常值后向界定：(?=…)表示要匹配的字符串后面应该出现’…’，’…'表达式可以是正则表达式，可以是常值s=r’/* comment 1 / code / comment 2 */’re.findall(r’(?<=/*).+?(?=*/)’,s)[’ comment 1 ', ...
复制链接

扫一扫