day 19 正则表达式

day 19 正则表达式

一、正则表达式

  • 正则表达式是一种让复杂的字符串问题变得简单的工具

匹配符号

1.re模块简介

re模块时python用来支持正则相关操作的系统模块

fullmatch(正则表达式,字符串) - 判断正则表达式和指定的字符串是否完全匹配,不能匹配结果是None

from re import fullmatch

2.匹配类符号

正则表达式是由各种各样的正则符号组合而成

2.1普通字符 - 在正则中没有特殊功能和特殊意义的字符

普通字符在正则表达式中表示符号本身,比如:az、AZ、0~9、中文、…
result=fullmatch(r’abc’,‘abc’)
print(result)

2.2特殊符号

1) . - 匹配任意一个字符 注意:一个点只能匹配一个字符

result=fullmatch(r'a.b','a5b')
print(result)

2) \d - 匹配任意一个数字字符

result=fullmatch(r'a\db','a3b')
print(result)

3)\s - 匹配任意一个空白字符
空白字符:空格、\t、\n

result=fullmatch(r'abc\s123','abc 123')
print(result)

4)\D \S -
\D - 匹配任意一个非数字字符
\S - 匹配任意一个非空白字符

result=fullmatch(r'abc\D12\S3','abc 12a3')
print(result)

5)[字符集] - 匹配字符集中任意一个字符

案例:
情况1:全是普通字符:[xyz12] - 匹配里面的任意一个都可以
情况2:包含\开头的匹配符号,这个时候匹配符号的功能有效;[mn\d] == [mn0123456789]
情况3:减号在两个符号之间,表示谁到谁(根据编码值来判断)
[a-z] - 匹配任意一个小写字母
[a-zA-Z] - 匹配任意一个字母
[\u4e00-\u9fa5] - 任意一个中文

result=fullmatch(r'a[xyz]c123','axc123')
print(result)

result=fullmatch(r'a[mn\d]b','a1b')
print(result)

result=fullmatch(r'1[a-z]2','1f2')
print(result)

[^字符集] - 匹配不在字符集中的任意一个字符
result=fullmatch(r'1[^a-z]2','122')
print(result)

二、匹配次数

用法:匹配符号匹配次数

# 1. *  - 零次或多次(任意次数)
'''
a*b  - b前面有任意多个a
\b*b  - b前面有任意多个数字


'''
result = fullmatch(r'a*b', 'aaab')
print(result)

result = fullmatch(r'\d*b', '48798b')
print(result)

result = fullmatch(r'[xyz]*b', 'xyxzzb')
print(result)

# 2. +  - 1次或多次(至少1次)
result = fullmatch(r'a+b', 'aaab')
print(result)

result = fullmatch(r'\d+b', '48798b')
print(result)

result = fullmatch(r'[xyz]+b', 'xyxzzb')
print(result)

# 3. ?  - 0次或者1次
result=fullmatch('r\d?abc','8abc')
print(result)

# 写一个正则表达式可以匹配任意一个正整数(不考虑0)
result=fullmatch(r'[+]?[1-9]\d*','025')
print(result)
# 4.{}
'''
{M,N}  - M到N次
{M,}   - 至少M次
{,N}   - 最多N次
{N}    - N次

'''
result=fullmatch(r'a{3}b','aaab')
print(result)

三、贪婪和非贪婪

# 1.贪婪和非贪婪
'''
 在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种(默认是非贪婪模式)
* + {M,N}  {M,} {,N} ?  -贪婪
*? +? {M,N}?  {M,}? {,N}? ??  - 非贪婪
注意:python中处理fullmatch以外都可能出现贪婪和非贪婪的问题

'''
result=fullmatch('.+b','ab见附件啊abjfajfbjifajb')
print(result)


result=search('.+?b','ab见附件啊abjfajfbjifaj')
print(result)

print('===================================')
res1=open('./top250.html','r',encoding='utf-8').read()
result=findall(r'<span class="inq">(.+)</span>',res1)
print(result)

四、分组和分支

from re import  *
# 1.分组  -  ()
# 应用场景1:将正则表达式中的部分用()括起来作为一个整体进行操作
result=fullmatch(r'([a-z]{3}\d{2}){3}','ffe21hfj67jki89')
print(result)

# 应用场景2: 重复  - 可以在有分组的正则表达式中通过 ‘\’来重复它前面第N个分组匹配到的内容
# '3a3'  '9a9'
result=fullmatch(r'(\d)a\1{3}','3a333')
print(result)

# 应用场景3:捕获  -  使用findall的时候,如果正则表达式中有分组,在返回数据的时候只返回分组中匹配到的内容
str1='faa=4324=432f发Joeafah43141'
result=findall(r'[a-z](\d+)',str1)
print(result)

result=findall(r'([a-z]{2})=(\d{2})',str1)
print(result)   #[('aa', '43')]

print('==========================')
# 2.分支   -  |
# 正则1 | 正则2   -  正则1和正则2中只要有一个能匹配成功,就匹配成功
# abc123、abcJKH
# result=fullmatch(r'abc\d{3]|abc[A-z]{3}','abc123')
result=fullmatch(r'abc(\d{3}|[A-Z]{3})','abc123')
print(result)

五、其它

1.转移符号 - 在本身具备特殊功能或者特殊意义的符号前加\,让其功能或者意义消失,编程一个普通符号
#‘a.b’
result=fullmatch(r'a\.b','a.b')
print(result)

result=fullmatch(f'\+?[1-9]\d','+23')
print(result)

result=fullmatch(r'\(\d{3}\)','(345)')
print(result)

让符号功能消失的另外一个方法:单独一个符号有特殊功能时候可以将这个符号方到[]中让其功能消失
result=fullmatch(r'[+]?[1-9]\d*','23')
print(result)

result=fullmatch(r'[ab^-]123','^123')
print(result)
2.忽略大小写: 在正则的最前面(?i)
result=fullmatch(r'(?i)abc','ABC')
print(result)
3.单行匹配和多行匹配:
# 多行匹配的时候 .不能和‘\n’匹配 (默认) - (?m)

result=fullmatch(r'a.b','a\nb')
print(result)

# 单行匹配,匹配的时候,.可以和‘\n’匹配  - 在正则最前面加(?s)

result=fullmatch(r'(?s)a.b','a\nb')
print(result)

result=fullmatch(r'(?si)a.b','a\nB')
print(result)

# result.group 可以去掉<re.Match object; span=(0, 3)


4.re 模块中的常用函数

(常用)fullmatch(正则,字符串) - 判断整个字符串是否符合正则描述的规则(完全匹配),匹配成功返回匹配对象,匹配失败返回None

match(正则,字符串) - 匹配字符串开头,匹配成功返回匹配对象,匹配失败返回None

search(正则,字符串) - 获取字符串中第一个满足正则的子串,找到了返回子串对应的匹配对象,找不到返回None

(常用)findall(正则,字符串) - 获取字符串中所有满足正则的子串,返回一个列表,列表中的元素是字符串或者元组

finditer(正则,字符串) - 获取字符串中所有满足正则的子串,返回一个迭代器,迭代器中的元素是子串对应的匹配对象

(常用)split(正则,字符串) - 将字符串中所有满足正则的子串作为切割点对字符串进行切割,返回一个列表,列表中的元素是字符串

(常用)sub(正则,字符串1,字符串2) - 将字符串2中所有满足正则的子串都替换成字符串1,返回替换后的新字符串

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值