Day 17
一、认识正则表达式
正则表达式是一种可以让一些复杂字符串问题变得简单的工具。
示例:判断指定的字符串是否是一个合法的手机号
11位;每一位都是数字;第一位必须是1;第二位是:3~9
tel = input('请输入手机号:')
def is_tel(num: str):
if len(num) != 11:
return False
for x in num:
if not x.isdigit():
return False
if num[0] != '1':
return False
if '3' <= num[1] <= '9':
return True
return False
# print(is_tel(tel))
def is_tel2(num: str):
from re import fullmatch
return bool(fullmatch(r'1[3-9]\d{9}', num))
print(is_tel2(tel))
二、匹配类符号
1.什么是正则表达式
-
正则表达式是一种可以让复杂的字符串问题变得简单的工具
-
正则并不是Python特有的语法(不属于python),所有的高级编程语言都支持正则,正则的语法通用。
-
不管通过正则表达式解决的是什么问题,写正则的时候都是在使用正则表达式描述字符串规则
2.Python的re模块
- re模块是Python用来支持正则表达式的一个模块,模块包含了所有和正则相关的函数
- fullmatch(正在表达式,字符串) - 判断正则表达式和指定的字符串是否完全匹配(判断整个字符串是否符合正则表达式描述的规则)
- 如果匹配成功返回匹配对象,匹配失败返回None
3.正则语法 - 匹配类符号
- a.普通字符 - 在正则表达式中表示本身的符号
result = fullmatch(r'abc', 'abc')
- b. . - 匹配任意一个字符
result = fullmatch(r'a.c', 'afc')
result = fullmatch(r'..abc', 'daabc')
- c. \d - 匹配任意一个数字字符
result = fullmatch(r'a\dc', 'a1c')
- d. \s - 匹配任意一个空白字符
- 空白字符 - 能产生空白效果的字符,例如:空行、换行、水平制表符
result = fullmatch(r'a\sc', 'a\tc')
result = fullmatch(r'a\d\d\sc', '12\tc')
- e. \D - 匹配任意一个非数字字符
result = fullmatch(r'a\Dc', 'apc')
- f. \S - 匹配任意一个非空白字符
result = fullmatch(r'a\Sc', 'apc')
- g. [字符集] - 匹配在字符集中的任意一个字符
[abc…] - 匹配a或者b或者c…
[abc\d…] - 匹配a或者b或者c或者任意数字…
[1-9] - 匹配1-9中的任意字符
[a-z] - 匹配任意一个小写字母
[a-zA-Z—\d] - 匹配字母数字下划线
[\u4e00-\u9fa5] - 匹配任意一个中文字符
- 【】中 - 放在两个字符中间表示谁到谁,但是前面的字符编码必须小于后面字符的编码
result = fullmatch(r'a[MN]c', 'aMc')
- h. 【^字符集】 - 匹配不在字符集中的任意一个字符
result = fullmatch(r'a[MN]c', 'a1c')
三、匹配次数
1. * - 0或者多次( 任意次数)
- 匹配符号* 在谁的后面就控制谁的次数
result = fullmatch(r'a*c', 'aaaaac')
# 表示前面可以是任意多个数字
result = fullmatch(r'\d*c', '14524266c')
# 表示前面是任意m可以任意n可以人一个mn也可以
result = fullmatch(r'[mn]*c', 'mmmc')
result = fullmatch(r'[mn]*c', 'nc')
result = fullmatch(r'[mn]*c', 'mnmnmmc')
2. + :1次或者多次(至少一次)
result = fullmatch(r'a+c', 'aaaaac')
3. ?:0次或者1次
result = fullmatch(r'a?c', 'ac')
result = fullmatch(r'a?c', 'c')
4. {}:m-n次
- a. {m,n}3 :m-n次
- b. {m,} :至少m次
- c. {,n} : 最多n次
- d. {n} :n次
# 表示123前面需要3-5个小写字母
result = fullmatch(r'[a-z]{3,5}123', 'aaaa123')
- 补充:macth(正则表达式,字符串) - 判断字符串开头是否符合正则表达式描述的规则
# 表示字符串开头为3个数字即可
result = match(r'\d{3}', '123aaaa123')
四、贪婪和非贪婪
1.贪婪和非贪婪
-
当匹配次数不确定时(*,+,?,{m,n},{m,},{,n}),匹配模式分为贪婪和非贪婪两种,默认是贪婪的
-
贪婪和和非贪婪:在匹配成功的时候,有多种匹配结果,贪婪取最多次数对应的匹配结果 (匹配次数不确定的地方,有多种匹配方式可以成功,贪婪取最多次数,非贪婪取最少次数)
-
贪婪模式:*,+,?,{m,n},{m,},{,n}
-
非贪婪模式:*?,+?,??,{m,n}?,{m,}?,{,n}?
注意:如果匹配结果只有一种可能,那么贪婪和非贪婪的结果一样。
# 贪婪模式
result = match(r'a.+b', 'amb计算bxxbmn')
print(result) # <re.Match object; span=(0, 9), match='amb计算bxxb'>
# 非贪婪模式
result = match(r'a.+?b', 'amb计算bxxbmn')
print(result) # <re.Match object; span=(0, 3), match='amb'>
# 注意:如果匹配结果只有一种可能,那么贪婪和非贪婪的结果一样
result = match(r'a.+b', 'ambxx')
print(result) # <re.Match object; span=(0, 3), match='amb'>
result = match(r'a.+?b', 'ambxx')
print(result) # <re.Match object; span=(0, 3), match='amb'>
五、分支和分组
1.分组 - ()
- 将正则表达式中一部分作为一个整体进行相关操作
# 以一对数字一对字母的形式循环...
result = fullmatch(r'(\d\d[A-Z]{2})+','23AS21DD55SS44FF')
- 重复:可以在正则表达式中通过\M来重复它前面第M个分组的匹配结果
- \M 只能重复在它出现之前的分组内容,无法重复在他之后出现的内容
# 以一对数字一个字母一堆数字的形式匹配但是数字必须相同
# 23m23、12m12m、98k98 - 能匹配
# 23m34、12m21 - 不能匹配
result = fullmatch(r'(\d\d)[a-z]\1','23m23')
# 23mkj=mkj23
result = fullmatch(r'(\d\d)[a-z]=\2\1','23mkj=mkj23')
- 捕获:只获取正则表达式中的分组匹配到的结果(分为手动捕获和自动捕获)
message = '我今年18岁,身高180cm,体重70kg,8块腹肌,月薪500000元,每年交300的**会员300元,房贷3000元,车贷2200元。'
# 获取其中数字信息
result = findall(r'\d+',message)
# 获取其中与金额相关的数字
result = findall(r'(\d+)元',message)
- 分支:| - 匹配可以和多个正则中任意一个正则匹配的字符串
- 正则1|正则2|正则3…
- 如果想要正则表达式中的一部分实现多选一的效果,变化的部分可以用分组来表示
# 匹配一个字符串是三个数字或者两个大写字母
result = fullmatch(r'\d{3}|[A-Z]{2}','111')
# 匹配以a开头的字符串后面是三个数字或者两个大写字母
result = fullmatch(r'a\d{3}|a[A-Z]{2}','a111')
result = fullmatch(r'a(\d{3}|[A-Z]{2})','a111')
六、转义符号
1 转义符号
- 正则中的转义符号,就是在本身具备特殊功能或者特殊意义的符号前加 ‘/’,让这个符号变成一个普通符号
# 匹配一个字符串是浮点数
result = fullmatch(r'\d+.\d+','111') # 因为在正则中的.表示任意字符 即使不是浮点数也会被匹配
result = fullmatch(r'\d+\.\d+','11.11')
# 如让 + 括号失去数量分组的作用
# +234,+123
result = fullmatch(r'\+\d+','+234')
# (23),(34)
result = fullmatch(r'\(d+\)','(11)')
2.[]里面的转义符号
- 单独存在有特殊意义的符号(+、.、?、等)在[]中特殊意义会自动消失
- 本身在中括号中有特殊功能的符号,如果要表示普通符号必须加 ‘’
# 我想匹配m,减号,n 不是m-n...
result = fullmatch(r'a[mn-]b','a-b')
result = fullmatch(r'a[m\-n]b','a-b')
七、检测类符号
- 检测类符号是在匹配成功的情况下,检测检测类符号所在的位置是否符合相关要去
- \b :检测是否是单词边界
- 单词边界:可以将两个单词区分开的符号都是单词边界,比如 : 空白符号、英文标点符号、字符串开头和字符串结尾
result = fullmatch(r'abc\b mn', 'abc mn')
print(result)
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\d+', message)
print(result) # ['203', '45', '89', '34', '23', '99', '910', '230', '90']
result = findall(r'\d+\b', message)
print(result) # ['45', '89', '23', '910', '230', '90']
result = findall(r'\b\d+', message)
print(result) # ['203', '89', '23', '99', '910', '230', '90']
result = findall(r'\b\d+\b', message)
print(result) # ['89', '23', '910', '230', '90']
- \B :检测是否不是单词边界
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\B\d+\B', message)
print(result) # ['03', '4', '34', '9', '1', '3']
- ^ : 检测是否是字符串开头
result = findall(r'^\d+', message)
print(result) # ['203']
# 提取字符串前5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'^.{5}', message)
print(result) # ['203mn']
- $检测是否是字符串结尾
# 提取字符串最后5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'.{5}$', message)
print(result) # ['0 90=']
# '\2233'
result = fullmatch(r'\\\d+', '\92233')
print(result) # <re.Match object; span=(0, 6), match='\\92233'>
八、re模块常用函数
from re import *
1.fullmatch(正则表达式,字符串)
- 完成匹配,判断整个字符是否符合正则表达式描述的规则,匹配成功返回匹配对象,匹配失败返回空
result = fullmatch(r'\d{3}', '234')
print(result) # <re.Match object; span=(0, 3), match='234'>
2.match(正则表达式,字符串)
- 匹配字符串开头。判断字符串开头是否符合正则表达式描述的规则,匹配成功返回匹配对象,匹配失败返回空
result = match(r'\d{3}', '823介绍数据库')
print(result) # <re.Match object; span=(0, 3), match='823'>
3.search(正则表达式,字符串)
- 获取字符串中第一个能够和正则匹配的成功的子串,匹配成功返回匹配对象,匹配失败返回空
result = search(r'\d{3}', 'ba203还是678说')
print(result) # <re.Match object; span=(2, 5), match='203'>
4.findall(正则表达式,字符串)
- 获取字符串中所有满足正则的子串,返回一个列表,列表中的元素是字符串
result = findall(r'\d{3}', 'ba203还是678说kk0222jksn就是23311')
print(result) # ['203', '678', '022', '233']
5.finditer(正则表达式,字符串)
- 获取字符串中所有满足正则的子串,返回一个迭代器,迭代器中的元素是每个子串对应的匹配结果
print(result) # <callable_iterator object at 0x0000020105BB2760>
# print(next(result))
print(list(result))
# [<re.Match object; span=(2, 5), match='203'>, <re.Match object; span=(7, 10), match='678'>, <re.Match object; span=(13, 16), match='022'>, <re.Match object; span=(23, 26), match='233'>]
6.split(正则表达式,字符串)
- 将字符串中所有满足正则的子串作为切割点对字符串进行切割
result = split(r'a|b', str1)
print(result) # ['123', 'MKn', '嗑生嗑死', 'KKss', '923', '===']
7.sub(正则表达式,字符串1,字符串2)
- 将字符串2中所有满足正则的子串都替换成字符串1
result = sub(r'\d+', '+', 'ba203还是678说kk0222jksn就是23311')
print(result) # ba+还是+说kk+jksn就是+
8.匹配对象
result = search(r'(\d{3})([A-Z]{2})', '-=2设计师234KM222哈哈宿舍239KH')
print(result) # <re.Match object; span=(6, 11), match='234KM'>
- 获取整个正则表达式对应的匹配结果:匹配对象.group()
print(result.group()) # '234KM'
- 手动捕获某个分组对应的匹配结果:匹配对象.group(分组数)
print(result.group(1)) # '234'
print(result.group(2)) # 'KM'
- 获取匹配结果在原字符串中的位置: 匹配对象.span()
print(result.span()) # (6, 11)
print(result.span(2)) # (9, 11)
9.参数
a. 匹配忽略大小写
result = fullmatch(r'(?i)abc','ABC')
b. 单行匹配(?s):可以和\n进行匹配
- 多行匹配:匹配的时候,不能和\n进行匹配
result = fullmatch(r'abc.123','abc\n123')
print(result) # None
练习题:
利用正则表达式完成下面的操作:
一、不定项选择题
-
能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( ABD)
A.
r"\(?\d{3}\)?-?\d{8}"
B.r"[0-9()-]+"
C.r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
-
能够完全匹配字符串"back"和"back-end"的正则表达式包括(ABCD )
A.r'\w{4}-\w{3}|\w{4}'
B.r'\w{4}|\w{4}-\w{3}'
C.r'\S+-\S+|\S+'
D.r'\w*\b-\b\w*|\w*'
-
能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(AD)
A.r'\b(\w+)\b\s+\1\b'
B.r'\w{2,5}\s*\1'
C.r'(\S+) \s+\1'
D.r'(\S{2,5})\s{1,}\1'
-
能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(BC )
A.r"a*?b"
B.r"a{,2}b"
C.r"aa??b"
D.r"aaa??b"
二、编程题
1.用户名匹配
要求: 1.用户名只能包含数字 字母 下划线
2.不能以数字开头
3.⻓度在 6 到 16 位范围内
username = input('请输入用户名:')
result = fullmatch(r'[a-z_A-Z][a-z_A-Z\d]{5,15}', username)
print(result)
- 密码匹配
要求: 1.不能包含!@#¥%^&*这些特殊符号
2.必须以字母开头
3.⻓度在 6 到 12 位范围内
password = input('请输入密码:')
result1 = fullmatch(r'[a-zA-Z][^!@#¥%^&*]{5,11}', password)
print(result1)
- ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
ipv4 = input('请输入ip地址:')
result2 = fullmatch(r'(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]\.){3}(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])', ipv4)
print(result2)
- 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
str1 = '-3.14good87nice19bye'
result3 = findall(r'[+-]?[1-9]\d*\.?\d*',str1)
sum = 0
for i in result3:
sum += float(i)
print(sum)
- 验证输入内容只能是汉字
str2 = input('请输入内容:')
result4 = fullmatch(r'[\u4e00-\u9fa5]*',str2)
print(result4)
- 匹配整数或者小数(包括正数和负数)
num = input('数字:')
result5 = fullmatch(r'[+-]?\d*\.?\d*', num)
print(result5)
-
验证输入用户名和QQ号是否有效并给出对应的提示信息
要求:
用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
QQ号是5~12的数字且首位不能为0
username1 = input('请输入用户名:')
qq = input('请输入qq:')
username1_ = fullmatch(r'[\da-zA-Z]{6-12}', username1)
qq_ = fullmatch(r'[1-9]\d{5,11}', qq)
print(username1_, qq_)
-
拆分长字符串:将一首诗的中的每一句话分别取出来
poem = ‘窗前明月光,疑是地上霜。举头望明月,低头思故乡。’
poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。'
result6 = split(r',|。', poem)
for i in result6:
print(i)