day17-正则表达式

最新推荐文章于 2024-07-20 17:12:48 发布

FXGBG

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量128

点赞数

分类专栏：学习文章标签： python

本文链接：https://blog.csdn.net/FXGBG/article/details/129825562

版权

学习专栏收录该内容

59 篇文章 0 订阅

订阅专栏

本文介绍了Python的re模块，包括fullmatch、findall和search等函数的使用，以及正则表达式的各种符号，如d、s、w等，还有匹配次数符号如*、+、?以及分组和分支的概念。同时，文章涵盖了贪婪和非贪婪模式，并给出了正则表达式的实际应用示例。

摘要由CSDN通过智能技术生成

1. re模块

re模块 - 提供了python中所有和正则相关的函数

fullmatch(正则表达式, 字符串) - 判断整个字符串是否满足正则表达式所描述的规则

findall(正则表达式, 字符串) - 提取字符串中所有满足正则表达式的子串

search(正则表达式, 字符串) - 匹配字符串中第一个满足正则表达式的字符串

注意：python中表达一个正则表达式一般使用r字符串

2. 正则符号

第一类符号：匹配符号

普通字符 - 在正则表达式中表示符号本身的符号

result = fullmatch(r'abc', 'xbc')
print(result)       # None

. - 匹配任意一个字符

result = fullmatch(r'.bc', 'xbc')
print(result)       # <re.Match object; span=(0, 3), match='xbc'>

result = fullmatch(r'.bc.', 'abcd')
print(result)       # <re.Match object; span=(0, 4), match='abcd'>

\d - 匹配任意一个数字字符

result = fullmatch(r'\d\dabc', '68abc')
print(result)       # <re.Match object; span=(0, 5), match='68abc'>

\s - 匹配任意一个空白字符

空白字符：空格(' ')、换行('\n')、水平制表符('\t')

result = fullmatch(r'123\sabc', '123\tabc')
print(result)       # <re.Match object; span=(0, 7), match='123\tabc'>

result = fullmatch(r'\d\d\s\d', '89 2')
print(result)       # <re.Match object; span=(0, 4), match='89 2'>

\w - 匹配任意一个字母、数字、下划线或者中文

result = fullmatch(r'abc\w123', 'abcZ123')
print(result)       # <re.Match object; span=(0, 7), match='abcZ123'>

\D、\S、\W - 分别和\d、\s、\w的功能相反

result = fullmatch(r'abc\D123', 'abc-123')
print(result)       # <re.Match object; span=(0, 7), match='abc-123'>

[字符集] - 匹配字符集中的任意一个字符

'''
[abc] - 匹配a或者b或者c
[abc\d] - 匹配a或者b或者c或者任意一个数字：[abc0123456789]
[1-5] - 匹配字符1到字符5中的任意一个字符
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z\d] - 匹配任意一个字母或者数字
[\u4e00-\u9fa5] - 匹配任意一个中文
'''

result = fullmatch(r'abc[M9你]123', 'abc你123')
print(result)       # <re.Match object; span=(0, 7), match='abc你123'>

[^字符集] - 匹配不在字符集中的任意一个字符

result = fullmatch(r'abc[^a-z]123', 'abc你123')
print(result)       # <re.Match object; span=(0, 7), match='abc你123'>

result = fullmatch(r'abc[M^N]123', 'abcM123')
print(result)       # <re.Match object; span=(0, 7), match='abcM123'>

第二类符号：匹配次数符号

匹配类符号匹配次数

* - 任意次数(0次或者1次或者多次)

a* - a出现任意多次
\d* - 任意多个任意数字
[abc]* - a、b、c出现任意多次
'''
result = fullmatch(r'1a*2', '1aaaaaaaaaaaa2')
print(result)       # <re.Match object; span=(0, 14), match='1aaaaaaaaaaaa2'>

result = fullmatch(r'M\d*N', 'M84616516N')
print(result)       # <re.Match object; span=(0, 10), match='M84616516N'>

result = fullmatch(r'M[3-9]*N', 'M65658N')
print(result)       # <re.Match object; span=(0, 7), match='M65658N'>

+ - 一次或者多次(至少一次)

result = fullmatch(r'1a+2', '1a2')
print(result)       # <re.Match object; span=(0, 3), match='1a2'>

? - 0次或者1次

result = fullmatch(r'1a?2', '12')
print(result)       # <re.Match object; span=(0, 2), match='12'>

{}

'''
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次
'''
result = fullmatch(r'1a{3,6}2', '1aaaa2')
print(result)       # <re.Match object; span=(0, 6), match='1aaaa2'>

# 练习：写一个正则表达式，可以匹配任意一个除了0的整数。
# 合法：233、+234、-7283、100、-2000
# 不合法：0、0002、2.23
result = fullmatch(r'[+-]?[1-9]\d*', '12.33')
print(result)       # None

贪婪和非贪婪模式

在匹配次数不确定的时候，如果有多种次数都可以匹配成功，贪婪取最多的那个次数，非贪婪取最少的那个次数

贪婪模式：+、?、*、{M,N}、{M,}、{,N}

非贪婪模式：+?、??、*?、{M,N}?、{M,}?、{,N}?

result = search(r'a.+b', '一体化sg发顺丰15ahkmbxyb很多人b56rdg')
print(result)       # <re.Match object; span=(10, 22), match='ahkmbxyb很多人b'>

result = search(r'a.+?b', '一体化sg发顺丰15ahkmbxyb很多人b56rdg')
print(result)       # <re.Match object; span=(10, 15), match='ahkmb'>

第三类符号：分组和分支

分组 - ()

正则表达式可以用()将部分内容括起来表示一个整体；括号括起来的部分就是一个分组

a. 整体操作的时候需要分组

b. 重复匹配 - 正则中可以通过\M来重复它前面第M个分组匹配的结果

c. 捕获 - 提取分匹配到的结果(捕获分为自动捕获(findall)和手动捕获)

# '23M', '89k10l', '09R56S55G22G'
result = fullmatch(r'(\d\d[A-Z])+', '09R56S55G22G')
print(result)       # <re.Match object; span=(0, 12), match='09R56S55G22G'>

# '23M23', '90K90', '78N78', '10U10'
result = fullmatch(r'(\d\d)[A-Z]\1', '23M23')
print(result)       # <re.Match object; span=(0, 5), match='23M23'>

result = fullmatch(r'(\d\d)[A-Z]\1', '23M24')
print(result)       # None

result = fullmatch(r'(\d{3})([a-z]{2})=\2\1{2}', '234km=km234234')
print(result)

# findall在正则表达式中有分组的时候，会自动提取匹配结果中分组匹配到内容
message = '的色佛52651，snf4684896-9+++-fsf--51额粉色651'
result = findall(r'[\u4e00-\u9fa5](\d+)', message)
print(result)

匹配对象.group() - 获取匹配结果中指定分组分配到的内容

匹配对象.group(N) - 获取匹配结果第N个分组

# 提取身高
message = '我是李华，今年23岁，身高180厘米，体重70kg'
result = search(r'身高(\d+)厘米，体重(\d+)kg', message)
print(result)       # <re.Match object; span=(11, 25), match='身高180厘米，体重70kg'>
print(result.group())       # 身高180厘米，体重70kg
print(result.group(1), result.group(2))      # 180 70

分支 - |

正则1|正则2|正则3|… - 先用正则1进行匹配，匹配成功直接成功；匹配失败用正则2进行匹配,…

result = fullmatch(r'\d{3}|[a-z]{2}', 'mn')
print(result)       # <re.Match object; span=(0, 2), match='mn'>

result = fullmatch(r'abc(\d\d|[A-Z]{2})', 'abcAG')
print(result)       # <re.Match object; span=(0, 5), match='abcAG'>

第四类符号：转义符号

转义符号：在本身具有特殊功能或者特殊意义的符号前加 \ ，让特殊符号变成普通符号

# 匹配整数部分和小数部分都是两位数的小数
result = fullmatch(r'[1-9]\d\.\d\d', '12.34')
print(result)       # <re.Match object; span=(0, 5), match='12.34'>

result = fullmatch(r'\d\+\d', '1+2')
print(result)       # <re.Match object; span=(0, 3), match='1+2'>

result = fullmatch(r'\([a-z]{3}\)', '(sfg)')
print(result)       # <re.Match object; span=(0, 5), match='(sfg)'>

# 注意：单独存在有特殊意义的符号，在[]这它的功能会消失
result = fullmatch(r'[1-9]\d[+.?*()\]]\d\d', '12.34')
print(result)       # <re.Match object; span=(0, 5), match='12]34'>

3. re模块

fullmatch(正则, 字符串) - 用整个字符串和正则匹配，匹配成功返回匹配对象，匹配失败返回None
findall(正则, 字符串) - 获取字符串所有满足正则的子串，默认返回一个列表，列表，中的元素是所有匹配到的子串(存在自动捕获现象)
search(正则, 字符串) - 匹配第一个满足正则的子串，匹配成功返回匹配对象，匹配失败返回None
split(正则, 字符串, [N]) - 将字符串中所有满足正则的子串作为切割点进行切割，N为最大切割次数
sub(正则 ,字符串1, 字符串2, [N]) - 将字符串2中所有满足正则的子串都替换成字符串1，N为最大替换次数
finditer(正则, 字符串) - 获取所有满足正则的子串，返回一个迭代器，迭代器中的元素是匹配对象
match(正则, 字符串) - 匹配字符串的开头

str1 = '国外113上高速高5gsg5+6该事故1265gseg'
str2 = split(r'\d+', str1)
print(str2)     # ['国外', '上高速高', 'gsg', '+', '该事故', 'gseg']

str2 = split(r'\d+', str1, 2)
print(str2)     # ['国外', '上高速高', 'gsg5+6该事故1265gseg']

str2 = sub(r'\d+', '+', str1)
print(str2)     # 国外+上高速高+gsg+++该事故+gseg

str2 = finditer(r'\d+', str1)
print(list(str2))

result = match(r'\d{3}', '234gsgrytgr')
print(result)       # <re.Match object; span=(0, 3), match='234'>

忽略大小写：(?i)

result = (r'(?i)abc', 'AbC')
print(result)       # <re.Match object; span=(0, 3), match='AbC'>

单行匹配：(?s)

多行匹配(默认)：. 不能和换行符匹配

单行匹配：. 可以和换行符进行匹配

result = fullmatch(r'abc.123', 'abc\n123')
print(result)       # None

result = fullmatch(r'(?s)abc.123', 'abc\n123')
print(result)       # <re.Match object; span=(0, 7), match='abc\n123'>