简介
正则表达式(简称regex)是由一些特殊符号和字符组成的字符串,它们能按照某种模式匹配一系列有相似特征的字符串。
特殊符号和字符
符号 | 描述 | 示例 |
---|---|---|
字符类 | 表示字符或者字符集的特殊符号 | |
literal | 匹配字面值literal | python只能匹配python |
. | 匹配任意字符,除换行符\n | b.b |
\d | 匹配任意数字,等价于[0-9] | data\d+\.txt |
\D | 匹配任意非数字 | |
\w | 匹配任意字母、数字、汉字字符及下划线 | \w+\.txt |
\W | 匹配任意非字母、数字、汉字字符及下划线 | |
\s | 匹配任意空格字符,与[\n\t\r\v\f] | |
\S | 匹配任意非空格字符 | |
或关系 | 匹配给的字符集中任意字符 | |
[…] | 匹配字符集中的任意单一字符 | [aeiou] |
[…x-y…] | 匹配x~y范围内的任意单一字符 | [A-Za-z0-9] |
[^…] | 不匹配字符集中的任意字符 | |
| | 或关系,mdd|xxh指的是mdd或者xxh | |
重复次数 | 单个字符或者一组字符的重复次数 | |
* | 匹配0次或多次前面出现的正则表达式 | md*可以匹配md、mdd、mddd |
+ | 匹配1次或者多次前面出现的正则表达式 | md*可以匹配mdd、mddd |
? | 匹配0次或1次前面出现的正则表达式 | md*可以匹配md、mdd |
{N} | 匹配N次前面出现的正则表达式 | [0-9]{11}匹配电话号码 |
{M,N} | 匹配M~N次前面出现的正则表达式 | [0-9]{3-5}能匹配 |
(*|+|?|{})? | 匹配重复出现符合的非贪婪模式(*、+、?、{}) | .*?[a-z] |
边界类 | 匹配边界 | |
^ | 匹配字符串起始部分 | ^Dear |
$ | 匹配字符串终止部分 | \.com$ |
\b | 匹配单词边界 | \bthe\b |
\B | 匹配非单词边界 | \Bmdd\B |
前后向界定符 | 示例见下 | |
(?<=…) | 表示要匹配的字符串前面应该出现’…’,’…'表达式必须是常值 | 示例见下 |
(?=…) | 表示要匹配的字符串后面应该出现’…’,’…'表达式可以是正则表达式,可以是常值 | 示例见下 |
(?<!..) | 表示要匹配的字符串前面不应该出现’…’,’…'表达式必须是常值 | 示例见下 |
(?!..) | 表示要匹配的字符串后面不应该出现’…’,’…'表达式可以是正则表达式,可以是常值 | 示例见下 |
匹配模式 | 比如忽略大小写,多行模式等 | |
(?iLmsux) | 在正则表达式中嵌入一个或多个特殊“标记”参数 | |
re.I | 不区分大小写的匹配 | |
re.L | 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境 | |
re.M | ^和$分别匹配字符串中行的起始和结尾,而不是整个字符串的起始和结尾 | |
re.S | 使“.”能够匹配所有字符 | |
re.U | 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库 | |
re.X | 为了增加可读性,忽略空格和 # 后面的注释 | |
组方法 | 组方法是匹配对象提取特定组内内容的方法 | 示例见下 |
…(…)… | 将()内的正则表达式匹配到的内容当成一个组存下来 | |
…(?P<name>…)… | 为组命名name | |
group(num=0) | 匹配对象方法,num=0表示返回匹配到的整个字符串,num=n(n>1)表示返回匹配到的第n组内容 | |
groups() | 匹配对象方法,返回一个包含所有匹配子组的元组 | |
groupdict() | 匹配对象方法,返回一个包含所有匹配的命名子组的字典 | |
\N | 匹配已保存的子组N | |
其它 | ||
(?#…) | 注释,里边的内容全部忽略 |
函数和方法
函数 | 描述 |
---|---|
compile(pattern) | 编译pattern返回正则表达式对象regex,re模块几乎所有函数都可以作为regex的方法 |
match(pattern, string) | 从字符串起始位置查找出现的正则表达式模式,匹配成功返回匹配对象,匹配失败返回None |
search(pattren, string) | 尝试查找整个字符串,匹配成功返回匹配对象,失败返回None |
findall(pattren, string) | 查找字符串中所有出现的正则表达式模式,并返回一个匹配列表 |
finditer(pattern, string) | 查找字符串中所有出现的正则表达式模式,并返回一个迭代器 |
split(pattern, string, max=0) | 根据正则表达式的模式分隔符,对字符串进行分割,返回分割后的列表,max表示最大分割次数 |
sub(pattern, repl, string, count=0) | 使用repl替换所有正则表达式的模式在字符串中出现的位置,count表示最大替换次数 |
sub(pattern, repl, string) | 同sub,但是还返回替换了几次 |
示例
重复次数
#正则表达式某一模块的重复
>>> url = 'nobody@www.xxx.yyy.zzz.com'
>>> re.match(r'\w+@(\w+\.)*\w+\.com', url).group() #(\w+\.)*匹配www.xxx.yyy.
'nobody@www.xxx.yyy.zzz.com'
>>> re.match(r'\w+@(\w+\.)*\w+\.com', url).group(1) #仅保存最后一段yyy.,而不是www.xxx.yyy.
'yyy.'
前后向界定符
提取代码片段中的注释,注释位于/*和*/之间
>>> s = r"/* comment 1 */ code /* comment 2 */"
>>> re.findall(r'(?<=/\*).+?(?=\*/)', s)
[' comment 1 ', ' comment 2 ']
匹配模式
使用(?iLmsux)系列选项,直接在正则表达式中指定一个或多个标记
#不区分大小写
>>> re.findall(r'(?i)yes', 'yes? Yes. YES!!')
['yes', 'Yes', 'YES']
#跨行搜索,不把多行字符串当成整体去匹配,而是每一行当个一个字符串去匹配
>>> s = """This line is the first,
another line,
that line, it's the best"""
>>> re.findall(r'(?im)^th[\w ]+', s) #匹配以th开头的句子,如果不使用?m的话,只能匹配出This line is the first
['This line is the first', 'that line']
组方法
使用组(re) 可以提取正则表达式中的特定内容
举个应用场景:提取s中的体重数据,观察特征可以知道就是提取体重后面的数字
>>> s = '小明电话号码1234567890,年龄30,体重180'
>>> re.search(r'体重(\d+)', s).group(1)
'180'
以搜索函数search为例:
#搜索2019和2020
>>> res = re.match(r'(\d+)[a-z]*(\d+)', 'from2019to2020')
>>> res.groups() #返回一个元组,包含所有分组
('2019', '2020')
>>> res.group(0) #返回匹配的正则表达式
'2019to2020'
>>> res.group(1) #返回匹配到的第一个组的内容,组编号从1开始
'2019'
组用在findall函数时,以列表返回所有找到的组:
>>> re.findall(r'(\d+)[a-z]*(\d+)', 'from2019to2020, from26to27')
[('2019', '2020'), ('26', '27')]
给组起特定的名字,只对search和match函数有用
>>> res = re.search(r'(?P<first>\d+)[a-z]*(?P<last>\d+)', 'from2019to2020, from26to27')
>>> res.groupdict() #返回字典,键是组名,值是内容
{'first': '2019', 'last': '2020'}
>>> res.group('first') #返回名字为first的组的内容
'2019'
检索替换函数sub中组的使用
>>> re.sub(r'(\w+?)(的成绩为)(\w+?)', r'%s\2%s' % ('mdd', 'A'), 'xxx的成绩为x')
'mdd的成绩为A'