17 - 正则表达式

Mr_suyi

于 2022-08-09 21:00:22 发布

阅读量734

点赞数

分类专栏： python 文章标签：正则表达式 python 开发语言

本文链接：https://blog.csdn.net/Mr_suyi/article/details/126255608

版权

python 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

Day 17

一、认识正则表达式

正则表达式是一种可以让一些复杂字符串问题变得简单的工具。

示例：判断指定的字符串是否是一个合法的手机号

11位；每一位都是数字；第一位必须是1；第二位是：3~9

tel = input('请输入手机号:')


def is_tel(num: str):
    if len(num) != 11:
        return False

    for x in num:
        if not x.isdigit():
            return False

    if num[0] != '1':
        return False

    if '3' <= num[1] <= '9':
        return True

    return False


# print(is_tel(tel))
def is_tel2(num: str):
    from re import fullmatch
    return bool(fullmatch(r'1[3-9]\d{9}', num))


print(is_tel2(tel))

二、匹配类符号

1.什么是正则表达式

正则表达式是一种可以让复杂的字符串问题变得简单的工具
正则并不是Python特有的语法（不属于python），所有的高级编程语言都支持正则，正则的语法通用。
不管通过正则表达式解决的是什么问题，写正则的时候都是在使用正则表达式描述字符串规则

2.Python的re模块

re模块是Python用来支持正则表达式的一个模块，模块包含了所有和正则相关的函数
fullmatch（正在表达式，字符串） - 判断正则表达式和指定的字符串是否完全匹配（判断整个字符串是否符合正则表达式描述的规则）
如果匹配成功返回匹配对象，匹配失败返回None

3.正则语法 - 匹配类符号

a.普通字符 - 在正则表达式中表示本身的符号

result = fullmatch(r'abc', 'abc')

b. . - 匹配任意一个字符

result = fullmatch(r'a.c', 'afc')
result = fullmatch(r'..abc', 'daabc')

c. \d - 匹配任意一个数字字符

result = fullmatch(r'a\dc', 'a1c')

d. \s - 匹配任意一个空白字符
空白字符 - 能产生空白效果的字符，例如：空行、换行、水平制表符

result = fullmatch(r'a\sc', 'a\tc')
result = fullmatch(r'a\d\d\sc', '12\tc')

e. \D - 匹配任意一个非数字字符

result = fullmatch(r'a\Dc', 'apc')

f. \S - 匹配任意一个非空白字符

result = fullmatch(r'a\Sc', 'apc')

g. [字符集] - 匹配在字符集中的任意一个字符

[abc…] - 匹配a或者b或者c…
[abc\d…] - 匹配a或者b或者c或者任意数字…
[1-9] - 匹配1-9中的任意字符
[a-z] - 匹配任意一个小写字母
[a-zA-Z—\d] - 匹配字母数字下划线
[\u4e00-\u9fa5] - 匹配任意一个中文字符

【】中 - 放在两个字符中间表示谁到谁，但是前面的字符编码必须小于后面字符的编码

result = fullmatch(r'a[MN]c', 'aMc')

h. 【^字符集】 - 匹配不在字符集中的任意一个字符

result = fullmatch(r'a[MN]c', 'a1c')

三、匹配次数

1. * - 0或者多次（任意次数）

匹配符号* 在谁的后面就控制谁的次数

result = fullmatch(r'a*c', 'aaaaac')

# 表示前面可以是任意多个数字
result = fullmatch(r'\d*c', '14524266c')

# 表示前面是任意m可以任意n可以人一个mn也可以
result = fullmatch(r'[mn]*c', 'mmmc')
result = fullmatch(r'[mn]*c', 'nc')
result = fullmatch(r'[mn]*c', 'mnmnmmc')

2. + ：1次或者多次（至少一次）

result = fullmatch(r'a+c', 'aaaaac')

3. ？：0次或者1次

result = fullmatch(r'a？c', 'ac')
result = fullmatch(r'a？c', 'c')

4. {}：m-n次

a. {m,n}3 ：m-n次
b. {m,} ：至少m次
c. {,n} ：最多n次
d. {n} ：n次

# 表示123前面需要3-5个小写字母
result = fullmatch(r'[a-z]{3,5}123', 'aaaa123')

补充：macth（正则表达式，字符串） - 判断字符串开头是否符合正则表达式描述的规则

# 表示字符串开头为3个数字即可
result = match(r'\d{3}', '123aaaa123')

四、贪婪和非贪婪

1.贪婪和非贪婪

当匹配次数不确定时（*，+，？,{m,n}，{m,}，{,n}），匹配模式分为贪婪和非贪婪两种，默认是贪婪的
贪婪和和非贪婪：在匹配成功的时候，有多种匹配结果，贪婪取最多次数对应的匹配结果（匹配次数不确定的地方，有多种匹配方式可以成功，贪婪取最多次数，非贪婪取最少次数）
贪婪模式：*，+，？,{m,n}，{m,}，{,n}
非贪婪模式：*?，+?，？?,{m,n}?，{m,}？，{,n}？

注意：如果匹配结果只有一种可能，那么贪婪和非贪婪的结果一样。

# 贪婪模式
result = match(r'a.+b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 9), match='amb计算bxxb'>

# 非贪婪模式
result = match(r'a.+?b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 3), match='amb'>


# 注意：如果匹配结果只有一种可能，那么贪婪和非贪婪的结果一样
result = match(r'a.+b', 'ambxx')
print(result)           #  <re.Match object; span=(0, 3), match='amb'>

result = match(r'a.+?b', 'ambxx')
print(result)           # <re.Match object; span=(0, 3), match='amb'>

五、分支和分组

1.分组 - （）

将正则表达式中一部分作为一个整体进行相关操作

# 以一对数字一对字母的形式循环...
result = fullmatch(r'(\d\d[A-Z]{2})+','23AS21DD55SS44FF')

重复：可以在正则表达式中通过\M来重复它前面第M个分组的匹配结果
\M 只能重复在它出现之前的分组内容，无法重复在他之后出现的内容

# 以一对数字一个字母一堆数字的形式匹配但是数字必须相同
# 23m23、12m12m、98k98  -  能匹配
# 23m34、12m21  - 不能匹配
result = fullmatch(r'(\d\d)[a-z]\1','23m23')

# 23mkj=mkj23
result = fullmatch(r'(\d\d)[a-z]=\2\1','23mkj=mkj23')

捕获：只获取正则表达式中的分组匹配到的结果（分为手动捕获和自动捕获）

message = '我今年18岁，身高180cm，体重70kg，8块腹肌，月薪500000元，每年交300的**会员300元，房贷3000元，车贷2200元。'

# 获取其中数字信息
result = findall(r'\d+',message)

# 获取其中与金额相关的数字
result = findall(r'(\d+)元',message)

分支：| - 匹配可以和多个正则中任意一个正则匹配的字符串
正则1|正则2|正则3…
如果想要正则表达式中的一部分实现多选一的效果，变化的部分可以用分组来表示

# 匹配一个字符串是三个数字或者两个大写字母
result = fullmatch(r'\d{3}|[A-Z]{2}','111')

# 匹配以a开头的字符串后面是三个数字或者两个大写字母
result = fullmatch(r'a\d{3}|a[A-Z]{2}','a111')
result = fullmatch(r'a(\d{3}|[A-Z]{2})','a111')

六、转义符号

1 转义符号

正则中的转义符号，就是在本身具备特殊功能或者特殊意义的符号前加 ‘/’，让这个符号变成一个普通符号

# 匹配一个字符串是浮点数 
result = fullmatch(r'\d+.\d+','111')  # 因为在正则中的.表示任意字符  即使不是浮点数也会被匹配
result = fullmatch(r'\d+\.\d+','11.11') 

# 如让 +  括号失去数量分组的作用
# +234，+123
result = fullmatch(r'\+\d+','+234') 
# (23),(34)
result = fullmatch(r'\(d+\)','(11)')

2.[]里面的转义符号

单独存在有特殊意义的符号（+、.、？、等）在[]中特殊意义会自动消失
本身在中括号中有特殊功能的符号，如果要表示普通符号必须加 ‘’

# 我想匹配m,减号,n 不是m-n...
result = fullmatch(r'a[mn-]b','a-b')
result = fullmatch(r'a[m\-n]b','a-b')

七、检测类符号

检测类符号是在匹配成功的情况下，检测检测类符号所在的位置是否符合相关要去
\b ：检测是否是单词边界
- 单词边界：可以将两个单词区分开的符号都是单词边界，比如 : 空白符号、英文标点符号、字符串开头和字符串结尾

result = fullmatch(r'abc\b mn', 'abc mn')
print(result)


message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\d+', message)
print(result)       # ['203', '45', '89', '34', '23', '99', '910', '230', '90']

result = findall(r'\d+\b', message)
print(result)       # ['45', '89', '23', '910', '230', '90']

result = findall(r'\b\d+', message)
print(result)       # ['203', '89', '23', '99', '910', '230', '90']

result = findall(r'\b\d+\b', message)
print(result)       # ['89', '23', '910', '230', '90']

\B ：检测是否不是单词边界

message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\B\d+\B', message)
print(result)  # ['03', '4', '34', '9', '1', '3']

^ ：检测是否是字符串开头

result = findall(r'^\d+', message)
print(result)       # ['203']

# 提取字符串前5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'^.{5}', message)
print(result)       # ['203mn']

$检测是否是字符串结尾

# 提取字符串最后5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'.{5}$', message)
print(result)    # ['0 90=']


# '\2233'
result = fullmatch(r'\\\d+', '\92233')
print(result)   # <re.Match object; span=(0, 6), match='\\92233'>

八、re模块常用函数

from re import *

1.fullmatch(正则表达式，字符串)

完成匹配，判断整个字符是否符合正则表达式描述的规则，匹配成功返回匹配对象，匹配失败返回空

result = fullmatch(r'\d{3}', '234')
print(result) # <re.Match object; span=(0, 3), match='234'>

2.match(正则表达式，字符串)

匹配字符串开头。判断字符串开头是否符合正则表达式描述的规则，匹配成功返回匹配对象，匹配失败返回空

result = match(r'\d{3}', '823介绍数据库')
print(result)  # <re.Match object; span=(0, 3), match='823'>

3.search(正则表达式，字符串)

获取字符串中第一个能够和正则匹配的成功的子串，匹配成功返回匹配对象，匹配失败返回空

result = search(r'\d{3}', 'ba203还是678说')
print(result)  # <re.Match object; span=(2, 5), match='203'>

4.findall(正则表达式，字符串)

获取字符串中所有满足正则的子串，返回一个列表，列表中的元素是字符串

result = findall(r'\d{3}', 'ba203还是678说kk0222jksn就是23311')
print(result)  # ['203', '678', '022', '233']

5.finditer(正则表达式，字符串)

获取字符串中所有满足正则的子串，返回一个迭代器，迭代器中的元素是每个子串对应的匹配结果

print(result)   # <callable_iterator object at 0x0000020105BB2760>
# print(next(result))
print(list(result))
 # [<re.Match object; span=(2, 5), match='203'>, <re.Match object; span=(7, 10), match='678'>, <re.Match object; span=(13, 16), match='022'>, <re.Match object; span=(23, 26), match='233'>]

6.split(正则表达式，字符串)

将字符串中所有满足正则的子串作为切割点对字符串进行切割

result = split(r'a|b', str1)
print(result)       # ['123', 'MKn', '嗑生嗑死', 'KKss', '923', '===']

7.sub(正则表达式，字符串1，字符串2)

将字符串2中所有满足正则的子串都替换成字符串1

result = sub(r'\d+', '+', 'ba203还是678说kk0222jksn就是23311')
print(result) # ba+还是+说kk+jksn就是+

8.匹配对象

result = search(r'(\d{3})([A-Z]{2})', '-=2设计师234KM222哈哈宿舍239KH')
print(result)       # <re.Match object; span=(6, 11), match='234KM'>

获取整个正则表达式对应的匹配结果:匹配对象.group()

print(result.group())       # '234KM'

手动捕获某个分组对应的匹配结果:匹配对象.group(分组数)

print(result.group(1))      # '234'
print(result.group(2))      # 'KM'

获取匹配结果在原字符串中的位置: 匹配对象.span()

print(result.span())            # (6, 11)
print(result.span(2))           # (9, 11)

9.参数

a. 匹配忽略大小写

result = fullmatch(r'(?i)abc','ABC')

b. 单行匹配（？s）：可以和\n进行匹配

多行匹配：匹配的时候，不能和\n进行匹配

result = fullmatch(r'abc.123','abc\n123')
print(result)  # None

练习题：

利用正则表达式完成下面的操作:

一、不定项选择题

能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括（ ABD）

A. r"$?\d{3}$?-?\d{8}"
B. r"[0-9()-]+"
C. r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
能够完全匹配字符串"back"和"back-end"的正则表达式包括（ABCD ）
A. r'\w{4}-\w{3}|\w{4}'
B. r'\w{4}|\w{4}-\w{3}'
C.r'\S+-\S+|\S+'
D. r'\w*\b-\b\w*|\w*'
能够完全匹配字符串"go go"和"kitty kitty"，但不能完全匹配“go kitty”的正则表达式包括（AD）
A.r'\b(\w+)\b\s+\1\b'
B. r'\w{2,5}\s*\1'
C. r'(\S+) \s+\1'
D. r'(\S{2,5})\s{1,}\1'
能够在字符串中匹配"aab"，而不能匹配"aaab"和"aaaab"的正则表达式包括（BC ）
A. r"a*?b"
B. r"a{,2}b"
C. r"aa??b"
D. r"aaa??b"

二、编程题

1.用户名匹配

要求: 1.用户名只能包含数字字母下划线

2.不能以数字开头

3.⻓度在 6 到 16 位范围内

username = input('请输入用户名：')
result = fullmatch(r'[a-z_A-Z][a-z_A-Z\d]{5,15}', username)
print(result)

密码匹配

要求: 1.不能包含!@#¥%^&*这些特殊符号

2.必须以字母开头

3.⻓度在 6 到 12 位范围内

password = input('请输入密码：')
result1 = fullmatch(r'[a-zA-Z][^!@#¥%^&*]{5,11}', password)
print(result1)

ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255

ipv4 = input('请输入ip地址：')
result2 = fullmatch(r'(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]\.){3}(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])', ipv4)
print(result2)

提取用户输入数据中的数值 (数值包括正负数还包括整数和小数在内) 并求和

例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86

str1 = '-3.14good87nice19bye'
result3 = findall(r'[+-]?[1-9]\d*\.?\d*',str1)
sum = 0
for i in result3:
    sum += float(i)
print(sum)

验证输入内容只能是汉字

str2 = input('请输入内容：')
result4 = fullmatch(r'[\u4e00-\u9fa5]*',str2)
print(result4)

匹配整数或者小数（包括正数和负数）

num = input('数字：')
result5 = fullmatch(r'[+-]?\d*\.?\d*', num)
print(result5)

验证输入用户名和QQ号是否有效并给出对应的提示信息

要求：
用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
QQ号是5~12的数字且首位不能为0

username1 = input('请输入用户名：')
qq = input('请输入qq：')
username1_ = fullmatch(r'[\da-zA-Z]{6-12}', username1)
qq_ = fullmatch(r'[1-9]\d{5,11}', qq)
print(username1_, qq_)

拆分长字符串：将一首诗的中的每一句话分别取出来

poem = ‘窗前明月光，疑是地上霜。举头望明月，低头思故乡。’

poem = '窗前明月光，疑是地上霜。举头望明月，低头思故乡。'
result6 = split(r'，|。', poem)
for i in result6:
    print(i)