python正则表达式

喆子玩点数据

已于 2022-10-14 11:16:16 修改

阅读量152

点赞数 1

分类专栏： python语言基础文章标签： python 正则表达式开发语言

于 2022-10-13 20:18:03 首次发布

本文链接：https://blog.csdn.net/m0_58239511/article/details/127308062

版权

python语言基础专栏收录该内容

18 篇文章 0 订阅

订阅专栏

一. 正则表达式的作用

正则表达式是一种可以让复杂的字符串问题变得简单的工具
可以通过几个例子，看他的功能：

问题：判断手机号是否合法

方法1：不使用正则
tel = '182839202303'
if len(tel) != 11:
    print('不是合法的手机号')
else:
    for x in tel:
        if not '0' <= x <= '9':
            print('不是合法的手机号')
            break
    else:
        if tel[0] != '1':
            print('不是合法的手机号')
        elif '3' <= tel[1] <= '9':
            print('是合法的手机号')
        else:
            print('不合法')

 方法2：
 tel = '13283920303'
 from re import fullmatch
 print(fullmatch(r'1[3-9]\d{9}', tel) != None)

用re模块中的split切割功能会更加强大，
用法也与直接字符串中用法不同

from re import split
str2 = '23+45-89-1928*233'
print(split(r'[+*-]', str2))

在这里插入图片描述

二.正则表达式语法

python提供正则表达式的方式：直接将正则表示作为一个字符串内容(正则需要使用引号引起来，而且引号前面一般需要加r)
首先，先大概了解几个函数
导入库

from re import fullmatch, match, findall, split, search, sub, finditer

fullmatch(正则, 字符串) - 完全匹配

match(正则, 字符串) - 匹配字符串开头

findall(正则, 字符串) - 提取字符串中所有满足正则的子串，返回一个列表

split(正则, 字符串) - 将字符串中所有满足正则的子串作为切割点对字符串进行切割

search(正则, 字符串) - 匹配字符串中第一个满足正则的字符串

sub(正则, 字符串1, 字符串2) - 将字符串2中所有满足正则的子串都替换成字符串1

finditer(正则, 字符串) - 提取字符串中所有满足正则的子串; 返回一个迭代器,迭代器中的元素是匹配对象

开始啦

1. 匹配类符号 - 用来规定字符(用来描述对字符的要求)

1)普通字符 - 除了特殊符号以外的符号都是普通字符（在正则中表示符号本身）

print(fullmatch(r'abc', 'abc'))

2) . - 匹配任意一个字符

print(fullmatch(r'a.c', 'a+c'))
print(fullmatch(r'a..c', 'a+和c'))

3）\d - 匹配任意一个数字字符

print(fullmatch(r'a\dc', 'a1c'))
print(fullmatch(r'\d\d\d', '728'))

4) \s - 匹配任意一个空白字符

空白字符：’ ‘、’\n’、‘\t’

print(fullmatch(r'\d\d\s\d', '23\t5'))

5) \w - 匹配任意一个数字、字母、下划线或者中文

print(fullmatch(r'a\wa', 'a_a'))

6) \D、\S、\W

\D - 匹配任意一个非数字字符

print(fullmatch(r'a\Dc', 'a框c'))

7）[字符集] - 匹配字符集中任意一个字符

用法1：在[]中提供多个普通字符, 匹配多个字符中的任意一个
用法2：[字符1-字符2]，匹配字符1到字符2范围中的任意一个字符
[5-9]: 能匹配’5’、‘6’、‘7’、‘8’、‘9’
[a-z]: 匹配任意一个小写字母
[\u4e00-\u9fa5]: 匹配任意一个中文
[a-zA-Z]:匹配任意一个字母

用法3：在[]中包含\开头的特殊符号
[\da-z]: 匹配任意一个数字或者任意一个小写字母
[\da-zA-Z_\u4e00-\u9fa5] == \w

注意：[]中的减号只有在两个字符之间的时候才表示谁到谁

print(fullmatch(r'a[mn1]b', 'a1b'))
print(fullmatch(r'a[2-5]c', 'a4c'))
print(fullmatch(r'abc[\u4e00-\u9fa5]', 'abc就'))
print(fullmatch(r'[-az]abc', '-abc'))

8)[^字符集] - 匹配不在字符集中的任意一个字符

[^A-Z]: 匹配任意一个非大写字母
[^mn]:  匹配除了m和n以外的任何一个字母

2. 匹配次数

任何匹配类符号后面都可以添加匹配次数对应的符号来控制字符的个数

1) + - 匹配1次或者多次(至少1次)

print(fullmatch(r'a+', 'aaaaaa'))
print(fullmatch(r'\d+a', '8292333a'))
print(fullmatch(r'a.+b', 'amksk数据s--=2b'))
print(fullmatch(r'a[1-5]+b', 'a43b'))

2) * - 匹配0次或者多个(任意次数)

print(fullmatch(r'a\d*b', 'a2233b'))

3) ? - 匹配0次或者1次

print(fullmatch(r'-?abc', '-abc'))

4) {}

{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次

print(fullmatch(r'a\d{3}b', 'a783b'))
print(fullmatch(r'a\d{3,5}b', 'a345b'))
print(fullmatch(r'a\d{3,}b', 'a89233423b'))
print(fullmatch(r'a\d{,3}b', 'a232b'))

5)贪婪和非贪婪

如果匹配次数不确定，匹配的时候分为贪婪和非贪婪两种模式(默认是贪婪模式)

a.贪婪模式: 在多种匹配次数都可以匹配成功的时候，贪婪取最多的次数来进行匹配
b.非贪婪模式: 在多种匹配次数都可以匹配成功的时候，非贪婪取最少的次数来进行匹配
（在不确定的匹配次数后面再加一个?: +?、*?、??、{M,N}?、{M,}?、{,N}?）

print(fullmatch('\d{3}', '233'))
print(match(r'\d{3}', '728空间数据水电费'))

print(match(r'a.+b', 'amnb还b上课'))  # <re.Match object; span=(0, 6), match='amnb还b'>
print(match(r'a.+?b', 'amnb还b上课'))  # <re.Match object; span=(0, 4), match='amnb'>

print(match(r'a.+b', 'amnb还上课'))
print(match(r'a.+?b', 'amnb还上课'))

print(findall(r'\d{3}', 'sjfh28393手机壳是否290shjf 283就开始900'))

message = '<jhsj28->数sssjs<992函数>kss<0-2=2-2033是>宿舍'
result = findall(r'<.+?>', message)
print(result)

3. 分组和分支

1)分组 - ()

分组就是用()将正则的部分内容括起来表示一个整体。
a. 整体控制（将正则中一部分内容括起来整体控制次数）
b. 重复（在正则中用\M来重复它前面第M个分组匹配到的结果）
c. 捕获（在获取匹配结果的时候可以自动(只有findall具有自动捕获的功能)或者手动的获取某个分组匹配的结果）

整体控制的案例

'67kmn89ksm78kom'
print(fullmatch(r'\d\d[a-z]{3}\d\d[a-z]{3}\d\d[a-z]{3}', '67kmn89ksm78kom'))
print(fullmatch(r'\d\d[a-z]{3}', '67kmn89ksm'))
print(fullmatch(r'(\d\d[a-z]{3}){3}', '67kmn89ksm78kom'))
print(fullmatch(r'(\d\d[a-z]{3})+', '67kmn89jkm'))

重复的案例
‘23mnk23’、‘89kms89’ - 匹配成功
‘23mnk45’ - None

print(fullmatch(r'(\d\d)[a-z]{3}\1', '23mks23'))

print(fullmatch(r'(\d\d)ab([A-Z]{3})-\2', '23abMKN-MKN'))
print(fullmatch(r'(\d\d)ab([A-Z]{3})-\2\1', '23abMKN-MKN23'))
print(fullmatch(r'(\d\d)ab([A-Z]{3})-\1{3}mn\2', '23abMKN-232323mnMKN'))

3)自动捕获案例

message = '<jhsj28->数sssjs<992函数>kss<0-2=2-2033是>宿舍'
result = findall(r'<(.+?)>', message)
print(result)

message = '哈吉斯234元看sjsj38000k0===233元开始看82993'
result = findall(r'(\d+)元', message)
print(result)

4. 检测类符号

先匹配，匹配成功后再来看检测类符号所在的位置是否符合相关要求

1）\b - 检测是否是单词边界(单词边界指的是任何可以将两个单词区分开来的符号：空白符号、英文标点符号、字符串开头和字符串结尾)

2）^ - 检测是否是字符串开头

3）$ - 检测是否是字符串结尾

print(fullmatch(r'abc\bmn', 'abcmn'))

message = '23sksm7823数据接口,232米好9022 28323,82923美女990'
print(findall(r'\b\d+\b', message))

message = '23sksm7823数据接口,232米好9022 28323,82923美女990'
print(findall(r'^\d+', message))
print(findall(r'\d+$', message))

5. 转义符号 - 在具有特殊意义的符号前加’\'让这个有特殊意义的符号变成一个普通符号

案例：匹配任意一个小数

print(fullmatch(r'\d+\.\d+', '23.34'))

# '34+23'
print(fullmatch(r'\d\d\+\d\d', '34+23'))

# '(234)'
print(fullmatch(r'\(\d{3}\)', '(345)'))

补充：除了\开头的特殊符号，其他符号放在[]中对应的特殊功能会自动消失

print(fullmatch(r'[.+\-?^\]]abc', ']abc'))

6.分支 - |

正则1|正则2|正则3|…

正则1|正则2

# '234'、'mns'
print(fullmatch(r'\d{3}|[a-z]{3}', 'amn'))

# 'abc234'、'abcMKJ'
print(fullmatch(r'abc\d{3}|abc[A-Z]{3}', 'abcMJK'))
print(fullmatch(r'abc(\d{3}|[A-Z]{3})', 'abcMKS'))

print('========================================================')

三、常用函数

from re import fullmatch, match, findall, split, search, sub, finditer

# fullmatch(正则, 字符串)        -   完全匹配

print(fullmatch(r'\d{3}.+', '156d41ss559aa862'))

# match(正则, 字符串)        -   匹配字符串开头

print(match(r'\d{3}', '156d41ss559aa862'))

# findall(正则, 字符串)      -   提取字符串中所有满足正则的子串，返回一个列表

print(findall(r'[a-zA-Z]', '156d41ss559aa862'))



# split(正则, 字符串)        -   将字符串中所有满足正则的子串作为切割点对字符串进行切割

print(split(r'[a-zA-Z]', '156d41ss559aa862'))
# 长字符切用分支来切
print(split(r'56|59', '156d41ss559aa8562'))


# search(正则, 字符串)       -   匹配字符串中第一个满足正则的字符串

print(search(r'\d{3}', '156d41ss559aa862'))

# sub(正则, 字符串1, 字符串2)  -  将字符串2中所有满足正则的子串都替换成字符串1

print(sub(r'\d{3}', '原来是三个数字', '156d41ss559aa862'))

# finditer(正则, 字符串)     -   提取字符串中所有满足正则的子串; 返回一个迭代器,迭代器中的元素是匹配对象

n = finditer(r'\d{3}', '156d41ss559aa862')
for i in n:
    print(i)