day16-正则表达式

day16-正则表达式

01.正则表达式匹配符号

re模块是python内置的,专门提供处理正则表达式函数的模块

from re import fullmatch
  • 什么是正则表达式

正则表达式是一种可以让字符串处理变得很简单的工具

正则表达式就是通过各种正则符号来描述字符串的规则

在不同的编程语言中,正则的语法是相同的,但是表示方式不同:python - ‘正则表达式’, js - /正则表达式/

  • 正则符号

1)普通字符 - 普通字符在正则表达式中表示这个符号本身

fullmatch(正则表达式,字符串) - 判断字符串是否符合正则所描述的规则,如果符合结果不是None,否则是None

re_str = 'abc'  # 规则:一个字符串有三个字符,分别是a、b和c
result = fullmatch(re_str, 'abc')
print(result)
  1. . - 匹配一个任意字符

‘a.b’ - 匹配一个长度是3的字符串,第一个字符是a,最后一个字符是b,中间为任意字符

  1. \d - 匹配一个任意数字
re_str = 'a/db'  # 长度为3,前面和后面分别为a,b,中间为任意数字

print(re_str)
  1. \s - 匹配一个空白字符(空白字符:空格字符、\n、\t)
re_str = 'abc\s123'

print(re_str)
  1. \w - 匹配一个字母、数字或者下划线(ASCII码表以外的字符都可以匹配)
re_str = '\d\w\d'
result = fullmatch(re_str, '2h4')
print(result)  # <re.Match object; span=(0, 3), match='2h4'>

\D - 匹配一个非数字字符

\S - 匹配一个非空白字符

  1. [字符集] - 匹配字符集中出现的任意一个字符

注意:一个[]只能匹配一个字符

​ 在[]中可以将-放在两个字符之间表示范围,但是-前面的字符的编码值必须小于后面的字符的编码值

​ 在[]中-只有在两个字符之间才有特殊意义,如果在最前面或者最后面就表示-本身

[a1+] - 匹配字符a或字符1或字符+

[\dxy] - 匹配一个任意数字或者x或者y

[1-9] - 匹配1到9的任意一个数字字符

[a-z] - 匹配任意一个小写字母

[\u4e00-\u9fa5] - 匹配任意一个中文字符

以下写法都支持:

[a-z+=/]

[1a-z2]

[2-9a-z]

  1. [(^)字符集] - 匹配不在字符集中任意一个字符
"""
[^abc] - 匹配除了a、b、c以外的任意字符
[^\d] - 匹配一个非数字字符
[^a-z] - 匹配一个非小写字母的字符 
"""
re_str = '\d[abc^]\d'
print(fullmatch(re_str, '3^6'))

02.检测类符号

from re import fullmatch, findall

匹配类的符号,一个符号需要对应一个字符;检测类的符号不影响字符串的长度,只是在匹配成功后检测符号所在的位置是否符号要求

  • 1

\b - 检测是否是单词边界

\B - 检测是否不是单词边界

单词边界 - 生活中可以将两个单词区分开来的字符,例如:空白、标点符号、字符串开头和字符串结束

re_str = r'abc,\b123'
result = fullmatch(re_str, 'abc,123')
print(result)

re_str = r'\b\d\d\s\babc'   # '\b\d\d\s\babc'
result = fullmatch(re_str, '89 abc')
print(result)

re_str = r'\d\d\B'
str1 = '啥时间89sksj28jsk 09 会计89, jss,85,结束素数10'
result = findall(re_str, str1)
print(result)
  • ^ - 检测字符串开头
re_str = '^\d\d\d'
result = fullmatch(re_str, '892')
print(result)

re_str = '^\d\d\d'
result = findall(re_str, '8890shsh892快捷键920js110ss334')
print(result)   # ['889']
  • $ - 检测是否是字符串结尾
re_str = '\d\d\d$'
result = findall(re_str, '8890shsh892快捷键920js110ss334')
print(result)    # ['334']

03.匹配次数

from re import fullmatch, search, findall
  • +,- 一次或多次(至少一次)

a+ - 字符a出现一次或者多次

\d+ - 匹配一次或者多次任意数字字符

.+ - 匹配一次或者多次任意字符

re_str = 'xa+y'
result = fullmatch(re_str, 'xay')
print(result)   # <re.Match object; span=(0, 3), match='xay'>

result = fullmatch(re_str, 'xaay')
print(result)   # <re.Match object; span=(0, 4), match='xaay'>

result = fullmatch(re_str, 'xaaaaaaaay')
print(result)   # <re.Match object; span=(0, 10), match='xaaaaaaaay'>

re_str = 'x\d+y'      # x\d\d\d\d\dy
print(fullmatch(re_str, 'x2y'))
print(fullmatch(re_str, 'x2823y'))

re_str = '1[xyz]+1'     #  1[xyz][xyz][xyz][xyz]1
print(fullmatch(re_str, '1x1'))
print(fullmatch(re_str, '1xx1'))
print(fullmatch(re_str, '1xy1'))
  • *,匹配0次或多次(任意次数)
re_str = 'xa*y'
print(fullmatch(re_str, 'xy'))
  • ? - 匹配0次或一次
print(fullmatch('0?abc', '0abc'))

{N} - 匹配N次

{M,N} - 匹配M到N次(至少M次,最多N次)

{M,} - 匹配至少M次

{,N} - 匹配最多N次

print(fullmatch('a{4}\d{3}', 'aaaa345'))
print(fullmatch('a{2,4}\d{2,}[a-z]{,3}', 'aaaa887hjk'))
  • (重要!)5.贪婪和非贪婪

在匹配次数不确定的时候,匹配分为贪婪和非贪婪两种,默认都是贪婪的

1)贪婪 - 匹配次数不确定默认就是贪婪 (+、*、?、{M,N}、{M,}、{,N})

贪婪:在能匹配成功的前提下,取匹配次数最多的结果。(假设3次、4次、6次都能匹配成功,最

后取6次)

2)非贪婪 - 在匹配次数不确定的次数后加? (+?、*?、??、{M,N}?、{M,}?、{,N}?)

非贪婪:在能匹配成功的前提下,取匹配次数最少的结果。(假设3次、4次、6次都能匹配成功,

最后取3次)

re_str = r'a.+?b'
# amnmb、amnmb123b、amnmb123blkb
print(findall(re_str, 'amnmb123blkb计算机上'))

re_str = r'a.+b'
# amnmb
print(findall(re_str, 'amnmb123lk计算机上'))

# <p>十几年</p>....<p></2828></p>
# '<p>.+?</p>'

04.分组和分支

from re import fullmatch

  • () - 分组

分组就是将正则表达式中的某部分用()括起来看成一个整体,然后进行整体的操作。

在正则表达式中一个()表示一个分组

1)整体操作

‘(\d{2}[a-z]{3})+’

2)整体重复

\M - 重复前面第M个分组匹配到的内容

print(fullmatch('(\d{2}[a-z]{3})+', '23hsk90nmb'))

re_str = r'(\d{3})ab\1'
print(fullmatch(re_str, '789ab789'))
print(fullmatch(re_str, '112ab112'))

re_str = r'(\d{3})([a-z]{2})=\1{2}'
print(fullmatch(re_str, '341ab=341341'))

re_str = r'(\d{3})([a-z]{2})=\2\1'
print(fullmatch(re_str, '341ab=ab341'))

# re_str = r'(\d{3})=\2([a-z]{2})'
# print(fullmatch(re_str, 'abc'))    # 报错! \2前面没有两个分组
  • | - 分支

正则1|正则2

# 练习:写一个正则表达式,能够匹配一个字符串是:abc后面是三个任意数字,或者三个任意大写字母
# 'abc827'、'abcKNM'
re_str = 'abc\d{3}|abc[A-Z]{3}'
print(fullmatch(re_str, 'abcMKS'))

re_str = 'abc(\d{3}|[A-Z]{3})'
print(fullmatch(re_str, 'abc987'))
  • 转义符号

在在正则中有特殊意义的符号前加 \ 让这个符号的功能消失,表示这个符号本身

re_str = '\d{2}\.[a-z]{3}'
print(fullmatch(re_str, '89.hsk'))
print(fullmatch(re_str, '89Mhsk'))   # None

re_str = '\d\+'
print(fullmatch(re_str, '8+'))

注意:除了在[]中有特殊意义的符号外(-和^),其他的符号在[]里面都表示这个符号本身

re_str = '\d[+*|?$^()-]\d'
print(fullmatch(re_str, '2)8'))

06.re模块

from re import fullmatch, match, search, findall, split, sub

  • fullmatch(正则表达式, 字符串) - 判断字符串和正则表达式是完全匹配, 如果可以匹配返回匹配对象,否则返回None

  • match(正则表达式, 字符串) - 判断字符串的开头是否和正则匹配,如果可以匹配返回匹配对象,否则返回None

re_str = '\d{3}'
print(fullmatch(re_str, '892'))
print(match(re_str, '923海兽祭祀shsjjj'))
  • search(正则表达式, 字符串) - 获取字符串中第一个满足正则表达式的子串,如果可以匹配返回匹配对象,否则返回None
print(search(re_str, 'jsjh892sjjdjjs2'))    # <re.Match object; span=(4, 7), match='892'>
  • findall(正则表达式, 字符串) - 获取字符串中所有满足正则表达式的子串,返回一个列表
print(findall(re_str, 'jsj 2839计算机282开始了11234,hss273681kl892p'))   # ['283', '282', '112', '273', '681', '892']

re_str = '\d{3}[a-z]'
print(findall(re_str, 'jsj 2839计算机282开始了11234,hss273681kl892p'))   # ['681k', '892p']

re_str = '(\d{3})[a-z]'
print(findall(re_str, 'jsj 2839计算机282开始了11234,hss273681kl892p'))    # ['681', '892']

re_str = '\d{2}[a-z]{2}'
print(findall(re_str, 'jsj89op就是789mn-=s函数56mn82是否879、'))    # ['89op', '89mn', '56mn']

re_str = '\d{2}([a-z]{2})'
print(findall(re_str, 'jsj89op就是789mn-=s函数56mn82是否879、'))    # ['op', 'mn', 'mn']

re_str = '(\d{2})([a-z]{2})'
print(findall(re_str, 'jsj89op就是789mn-=s函数56mn82是否879、'))    # [('89', 'op'), ('89', 'mn'), ('56', 'mn')]

  • split(正则表达式, 字符串) - 将字符串中所有满足正则表达式的子串作为切割点,对字符串进行切割
print(split('[a-z]+', '你好akslb江苏省a护具b==='))    # ['你好', 'ksl', '江苏省', '护具', '===']

# 6.sub(正则表达式, 字符串1, 字符串2)  - 将字符串2中满足正则表达式的子串都替换成字符串1
print(sub('\d+', '+', '就是90JJ是239jsj函数2海事局'))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值