正则表达式
1.正则表达式: 解决字符串问题的工具(让复杂的字符串问题变得简单的一个工具)
示例:
def is_tel_num(tel_num: str):
if tel_num[0] != '1':
return False
if len(tel_num) != 11:
return False
if tel_num[1] not in '3456789':
return False
return tel_num.isdigit()
tel = '1351231561'
print(is_tel_num(tel))
from re import fullmatch
# 正则
def is_tel_num(tel_num: str):
return fullmatch(r'1[3-9]\d{9}', tel_num) != None
message = 'asd1231就卡死的记录12355来我阿萨12355'
2.匹配类符号
1.re模块
re模块是python用来支持正则表达式的一个模块
re模块中提供了各种和正则相关的函数:fullmatch、search、findall、match、split、sub等等
fullmatch(正则表达式,字符串) - 判断整个字符串是否完全符合正则表达式描述的规则。如果不符合返回空值
python中提供正则表达式的方式:r’正则表达式’
2.匹配类符号 - 一个正则符号表示一类字符
匹配类符号在正则中的作用:用来要求字符串中某个位置必须是什么样的字符
1)普通字符 - 在正则表达式中表示这个符号本身,对字符串中的字符的要求就是符号本身
示例:
# 要求字符串:总共有3个字符,第一个是'a',第二个是'b',第三个是'c'
result = fullmatch(r'abc', 'abc')
print(result)
3.\d - 匹配一个任意数字
示例:
result = fullmatch(r'a\dc','a0c')
print(result)
4.\s - 匹配一个任意空白字符
空白字符包括:空格、\n、\t
示例:
result = fullmatch(r'a\sb','a b')
print(result)
5.\w - 匹配一个数字、字母或者下划线的中文
示例:
result = fullmatch(r'a\wb','a_b')
print(result)
6.\大写字母 - 与相应小写字母功能相反
\D - 匹配一个任意非符字字符
\S - 匹配一个任意非空白字符
7.[字符集] - 匹配字符集中任意一个字符
[多个普通符号] - [abc12], 在abc12五个符号中任意一个可以匹配
[包含\开头的特殊符号]
[字符1 - 字符2] - 例如[a-z],要求是任意一个小写字母 [a-zA-Z],任意一个字符 [2-9a-z],任意一个2-9或者小写字母
如果[]中 - 不在两个字符直接,不能表示谁到谁,那它就是个普通符号
示例:
result = fullmatch(r'1[xyz]2','1x2')
print(result)
result = fullmatch(r'a[mn\d]b','a1b')
print(result)
8.[’^'字符集]- 匹配不在字符集中的任意一个字符
result = fullmatch(r'1[^xyz]2','122')
print(result)
3.匹配次数
1. * - 匹配0次或者多次
a* - a出现任意次数
\d* - 任意多个数字
[abc]* - 任意多个字母abc
示例:
result = fullmatch(r'a*b', 'aaab')
print(result)
2. + - 匹配1次或者多次(至少1次)
示例:
result = fullmatch(r'a+b', 'aab')
print(result)
3.? - 0 或 1次
示例:
result = fullmatch(r'-?123', '-123')
print(result)
4.{}
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次
示例:
result = fullmatch(r'\d{3}abc', '123abc')
print(result)
result = fullmatch(r'\d{3,5}abc', '123abc')
print(result)
result = fullmatch(r'\d{3,}abc', '123abc')
print(result)
result = fullmatch(r'\d{,5}abc', '123abc')
print(result)
5.贪婪和非贪婪
在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种
匹配次数不确定:*、+、?、{M,N}、{M,}、{,N}
贪婪:在次数不确定的情况下,对应的字符串在不同次数下有多种匹配结果,贪婪取最多次数对应的情况(前提是匹配成功)
非贪婪取最少次数对应的结果
贪婪:、+、?、{M,N}、{M,}、{,N}
非贪婪:?、+?、??、{M,N}?、{M,}?、{,N}?
示例:
re_str = '\d+'
result = fullmatch(re_str,'123')
print(result)
# search(正则表达式,字符串) - 在字符串中查找第一个满足正则表达式的子串
result = search(r'\d+?','as123125')
print(result)
4.分组和分支
1.分组 - ()
分组就是在正则中用括号将正则中的部分内容括起来就形成了一个分组
1)整体操作
2)重复
在正则中:\N可以重复\N所在的位置的前面的第N个分组匹配到的内容
3)捕获 - 获取匹配结果中的部分内容
示例:
# 匹配'mn78jh56lm89'
result = fullmatch(r'([a-z]{2}\d{2}){3}', 'mn78jh56lm89')
print(result)
# 匹配:'23abc23'
result = fullmatch(r'(\d\d)abc\1','23abc23')
print(result)
2.分支 - |
正则1|正则2 - 先用正则1匹配成功就成功,如果不成功就用正则2匹配,如果匹配成功就成功,如果失败就失败
示例:
# 匹配:abc后面是两个任意数字或者两个任意的大写字母,'abc34','abcKJ'
result = fullmatch(r'abc(\d\d|[A-Z]{2})','abcAA')
print(result)
5.检测类符号和转义符号
1.检测类符号
检测类符号不是匹配符号,不会要求某个位置必须是什么样的字符,而是用来检查某个位置是否符合相关要求
1.\b - 检测是否是单词边界
单词边界 - 凡是可以用来将两个单词区分开的符号,例如:空白字符、标点符号、字符串开头、字符串结尾
示例:
result = findall(r'\b\d+', '23asdjasdkajl213 21 321512 -123;asld')
print(result)
2.\B - 检测是否非单词边界
示例:
result = findall(r'\B\d+', '23asdjasdkajl213 21 321512 -123;asld')
print(result)
3)^ - 检测是否是字符串开头([]外面)
4)$ - 检测是否是字符串结尾
2.转义符号
正则中的转移符号是指在本身就具备特殊功能的符号前加上一个,让他本身具备的特殊功能消失变成一个普通符号。
补充:独立存在有特殊意义的符号,放到[]中特殊功能会直接消失变成一个普通符号,例如:+,*,.,?,(,)等
示例:
result = fullmatch(r'\d+\.\d+', '1.23')
print(result)
result = fullmatch(r'\d\d\+\d\d', '12+23')
print(result)
result = fullmatch(r'\\dasd', '\dasd')
print(result)
result = fullmatch(r'[M\-N]abc', '-abc')
print(result)
6.re模块
1.常用的模块
fullmatch(正则,字符串) - 判断整个字符串是否能够和正则表达式匹配,如果匹配成功返回匹配对象,匹配失败返回None
match(正则,字符串) - 匹配字符串开头,如果匹配成功返回匹配对象,匹配失败返回None
search(正则,字符串) - 匹配字符串中第一个满足正则的子串,如果匹配成功返回匹配对象,匹配失败返回None
findall(正则,字符串) - 获取字符串中所有满足正则的子串,返回值是列表,列表中的元素是匹配到的字符串
finditer(正则,字符串) - 获取字符串中所有满足正则的子串,返回一个迭代器,迭代器中的元素是匹配对象
split(正则,字符串) - 将字符串中所有满足正则的子串作为切割点对字符串进行切割,返回一个列表,列表中的元素是字符串
sub(正则,字符串1,字符串2) - 将字符串2中所有满足正则的子串全部替换成字符串1
示例:
result = match(r'ac','ac333')
print(result)
result = finditer(r'\d[a-z]','3asdq61adfa32as')
print(result)
result = split(r'\d[a-z]','3asdq61adfa32as')
print(result)
result = sub(r'\d[a-z]','00','3asdq61adfa32as',1)
print(result)
2.匹配对象
1)获取匹配结果对应的字符串
a.获取整个正则匹配到的字符串:匹配对象.group()
b.获取某个分支匹配到的结果:匹配对象.group(N)
2)获取匹配结果在源字符串中的位置信息
3.参数
1单行匹配和多行匹配
多行匹配的时候.不能和’\n’进行匹配(默认):flags = M 、?m
单行匹配的时候.能和’\n’进行匹配:flags = S 、?s
示例:
result = fullmatch(r'a.c','a\nc',S)
print(result)
result = fullmatch(r'(?s)a.c','a\nc')
print(result)
2.忽略大小写
默认情况下大写字母和小写字母是不能匹配,忽略大小写以后大写字母可以和对应的小写字母匹配
方法:flags=I,(?i)
3.忽略大小写又要单行匹配
flags = I|S 、(?is)
利用正则表达式完成下面的操作:
一、不定项选择题
-
能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( ABD)
A.
r"\(?\d{3}\)?-?\d{8}"
B.r"[0-9()-]+"
C.r"[0-9(-)]*\d*"
D.r"[(]?\d*[)-]*\d*"
-
能够完全匹配字符串"back"和"back-end"的正则表达式包括( ABCD )
A.r'\w{4}-\w{3}|\w{4}'
B.r'\w{4}|\w{4}-\w{3}'
C.r'\S+-\S+|\S+'
D.r'\w*\b-\b\w*|\w*'
-
能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(AD)
A.r '\b(\w+)\b\s+\1\b'
B.r'\w{2,5}\s*\1'
C.r'(\S+) \s+\1'
D.r'(\S{2,5})\s{1,}\1'
-
能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(BC )
A.r"a*?b"
B.r"a{,2}b"
C.r"aa??b"
D.r"aaa??b"
二、编程题
1.用户名匹配
要求: 1.用户名只能包含数字 字母 下划线
2.不能以数字开头
3.⻓度在 6 到 16 位范围内
result = fullmatch(r'\D[0-9a-zA-Z_]{5,15}','a1234566666666')
print(result)
- 密码匹配
要求: 1.不能包含!@#¥%^&*这些特殊符号
2.必须以字母开头
3.⻓度在 6 到 12 位范围内
result = fullmatch(r'[a-zA-Z][^!@#¥%^&*]{5,11}','a123456')
print(result)
- ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
result = fullmatch(r'((25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))\.){3}(25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))', '0.255.255.25')
print(result)
- 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
result = findall(r'[-]?\d+\.?\d*', '-3.14good87nice19bye')
str1 = '+'.join(result)
print(str1, '=', eval(str1), sep='')
-
验证输入内容只能是汉字
result = fullmatch(r'[\u4e00-\u9fa5]*','阿斯顿阿斯达') print(result)
-
匹配整数或者小数(包括正数和负数)
result = fullmatch(r'\d\.?\d*','1.23') print(result)
-
验证输入用户名和QQ号是否有效并给出对应的提示信息
要求:
用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
QQ号是5~12的数字且首位不能为0str1 = input('请输入账号5-12位:') str2 = input('请输入用户名6-20位:') result = fullmatch(r'[1-9][\d]{4,11}',str1) result1 = fullmatch(r'[a-zA-z\d_]{6,20}',str2) if not result: print('QQ号是5~12的数字且首位不能为0') if not result1: print('用户名必须由字母、数字或下划线构成且长度在6~20个字符之间')
-
拆分长字符串:将一首诗的中的每一句话分别取出来
poem = ‘窗前明月光,疑是地上霜。举头望明月,低头思故乡。’
poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。' result = split(r'[^\u4e00-\u9fa5]',poem) print(result)