17 - 正则表达式

Day 17

一、认识正则表达式

正则表达式是一种可以让一些复杂字符串问题变得简单的工具。

示例:判断指定的字符串是否是一个合法的手机号

11位;每一位都是数字;第一位必须是1;第二位是:3~9

tel = input('请输入手机号:')


def is_tel(num: str):
    if len(num) != 11:
        return False

    for x in num:
        if not x.isdigit():
            return False

    if num[0] != '1':
        return False

    if '3' <= num[1] <= '9':
        return True

    return False


# print(is_tel(tel))
def is_tel2(num: str):
    from re import fullmatch
    return bool(fullmatch(r'1[3-9]\d{9}', num))


print(is_tel2(tel))

二、匹配类符号

1.什么是正则表达式

  • 正则表达式是一种可以让复杂的字符串问题变得简单的工具

  • 正则并不是Python特有的语法(不属于python),所有的高级编程语言都支持正则,正则的语法通用。

  • 不管通过正则表达式解决的是什么问题,写正则的时候都是在使用正则表达式描述字符串规则

2.Python的re模块

  • re模块是Python用来支持正则表达式的一个模块,模块包含了所有和正则相关的函数
  • fullmatch(正在表达式,字符串) - 判断正则表达式和指定的字符串是否完全匹配(判断整个字符串是否符合正则表达式描述的规则)
  • 如果匹配成功返回匹配对象,匹配失败返回None

3.正则语法 - 匹配类符号

  • a.普通字符 - 在正则表达式中表示本身的符号
result = fullmatch(r'abc', 'abc')
  • b. . - 匹配任意一个字符
result = fullmatch(r'a.c', 'afc')
result = fullmatch(r'..abc', 'daabc')
  • c. \d - 匹配任意一个数字字符
result = fullmatch(r'a\dc', 'a1c')
  • d. \s - 匹配任意一个空白字符
  • 空白字符 - 能产生空白效果的字符,例如:空行、换行、水平制表符
result = fullmatch(r'a\sc', 'a\tc')
result = fullmatch(r'a\d\d\sc', '12\tc')
  • e. \D - 匹配任意一个非数字字符
result = fullmatch(r'a\Dc', 'apc')
  • f. \S - 匹配任意一个非空白字符
result = fullmatch(r'a\Sc', 'apc')
  • g. [字符集] - 匹配在字符集中的任意一个字符

[abc…] - 匹配a或者b或者c…
[abc\d…] - 匹配a或者b或者c或者任意数字…
[1-9] - 匹配1-9中的任意字符
[a-z] - 匹配任意一个小写字母
[a-zA-Z—\d] - 匹配字母数字下划线
[\u4e00-\u9fa5] - 匹配任意一个中文字符

  • 【】中 - 放在两个字符中间表示谁到谁,但是前面的字符编码必须小于后面字符的编码
result = fullmatch(r'a[MN]c', 'aMc')
  • h. 【^字符集】 - 匹配不在字符集中的任意一个字符
result = fullmatch(r'a[MN]c', 'a1c') 

三、匹配次数

1. * - 0或者多次( 任意次数)

  • 匹配符号* 在谁的后面就控制谁的次数
result = fullmatch(r'a*c', 'aaaaac')

# 表示前面可以是任意多个数字
result = fullmatch(r'\d*c', '14524266c')

# 表示前面是任意m可以任意n可以人一个mn也可以
result = fullmatch(r'[mn]*c', 'mmmc')
result = fullmatch(r'[mn]*c', 'nc')
result = fullmatch(r'[mn]*c', 'mnmnmmc')

2. + :1次或者多次(至少一次)

result = fullmatch(r'a+c', 'aaaaac')

3. ?:0次或者1次

result = fullmatch(r'a?c', 'ac')
result = fullmatch(r'a?c', 'c')

4. {}:m-n次

  • a. {m,n}3 :m-n次
  • b. {m,} :至少m次
  • c. {,n} : 最多n次
  • d. {n} :n次
# 表示123前面需要3-5个小写字母
result = fullmatch(r'[a-z]{3,5}123', 'aaaa123')
  • 补充:macth(正则表达式,字符串) - 判断字符串开头是否符合正则表达式描述的规则
# 表示字符串开头为3个数字即可
result = match(r'\d{3}', '123aaaa123')

四、贪婪和非贪婪

1.贪婪和非贪婪

  • 当匹配次数不确定时(*,+,?,{m,n},{m,},{,n}),匹配模式分为贪婪和非贪婪两种,默认是贪婪的

  • 贪婪和和非贪婪:在匹配成功的时候,有多种匹配结果,贪婪取最多次数对应的匹配结果 (匹配次数不确定的地方,有多种匹配方式可以成功,贪婪取最多次数,非贪婪取最少次数)

  • 贪婪模式:*,+,?,{m,n},{m,},{,n}

  • 非贪婪模式:*?,+?,??,{m,n}?,{m,}?,{,n}?

注意:如果匹配结果只有一种可能,那么贪婪和非贪婪的结果一样。

# 贪婪模式
result = match(r'a.+b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 9), match='amb计算bxxb'>

# 非贪婪模式
result = match(r'a.+?b', 'amb计算bxxbmn')
print(result)           # <re.Match object; span=(0, 3), match='amb'>


# 注意:如果匹配结果只有一种可能,那么贪婪和非贪婪的结果一样
result = match(r'a.+b', 'ambxx')
print(result)           #  <re.Match object; span=(0, 3), match='amb'>

result = match(r'a.+?b', 'ambxx')
print(result)           # <re.Match object; span=(0, 3), match='amb'>

五、分支和分组

1.分组 - ()

  • 将正则表达式中一部分作为一个整体进行相关操作
# 以一对数字一对字母的形式循环...
result = fullmatch(r'(\d\d[A-Z]{2})+','23AS21DD55SS44FF')
  • 重复:可以在正则表达式中通过\M来重复它前面第M个分组的匹配结果
  • \M 只能重复在它出现之前的分组内容,无法重复在他之后出现的内容
# 以一对数字一个字母一堆数字的形式匹配但是数字必须相同
# 23m23、12m12m、98k98  -  能匹配
# 23m34、12m21  - 不能匹配
result = fullmatch(r'(\d\d)[a-z]\1','23m23')

# 23mkj=mkj23
result = fullmatch(r'(\d\d)[a-z]=\2\1','23mkj=mkj23')

  • 捕获:只获取正则表达式中的分组匹配到的结果(分为手动捕获和自动捕获)
message = '我今年18岁,身高180cm,体重70kg,8块腹肌,月薪500000元,每年交300的**会员300元,房贷3000元,车贷2200元。'

# 获取其中数字信息
result = findall(r'\d+',message)

# 获取其中与金额相关的数字
result = findall(r'(\d+)元',message)
  • 分支:| - 匹配可以和多个正则中任意一个正则匹配的字符串
  • 正则1|正则2|正则3…
  • 如果想要正则表达式中的一部分实现多选一的效果,变化的部分可以用分组来表示
# 匹配一个字符串是三个数字或者两个大写字母
result = fullmatch(r'\d{3}|[A-Z]{2}','111')

# 匹配以a开头的字符串后面是三个数字或者两个大写字母
result = fullmatch(r'a\d{3}|a[A-Z]{2}','a111')
result = fullmatch(r'a(\d{3}|[A-Z]{2})','a111')

六、转义符号

1 转义符号

  • 正则中的转义符号,就是在本身具备特殊功能或者特殊意义的符号前加 ‘/’,让这个符号变成一个普通符号
# 匹配一个字符串是浮点数 
result = fullmatch(r'\d+.\d+','111')  # 因为在正则中的.表示任意字符  即使不是浮点数也会被匹配
result = fullmatch(r'\d+\.\d+','11.11') 

# 如让 +  括号失去数量分组的作用
# +234,+123
result = fullmatch(r'\+\d+','+234') 
# (23),(34)
result = fullmatch(r'\(d+\)','(11)') 

2.[]里面的转义符号

  • 单独存在有特殊意义的符号(+、.、?、等)在[]中特殊意义会自动消失
  • 本身在中括号中有特殊功能的符号,如果要表示普通符号必须加 ‘’
# 我想匹配m,减号,n 不是m-n...
result = fullmatch(r'a[mn-]b','a-b')
result = fullmatch(r'a[m\-n]b','a-b')

七、检测类符号

  • 检测类符号是在匹配成功的情况下,检测检测类符号所在的位置是否符合相关要去
  • \b :检测是否是单词边界
    • 单词边界:可以将两个单词区分开的符号都是单词边界,比如 : 空白符号、英文标点符号、字符串开头和字符串结尾
result = fullmatch(r'abc\b mn', 'abc mn')
print(result)


message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\d+', message)
print(result)       # ['203', '45', '89', '34', '23', '99', '910', '230', '90']

result = findall(r'\d+\b', message)
print(result)       # ['45', '89', '23', '910', '230', '90']

result = findall(r'\b\d+', message)
print(result)       # ['203', '89', '23', '99', '910', '230', '90']

result = findall(r'\b\d+\b', message)
print(result)       # ['89', '23', '910', '230', '90']
  • \B :检测是否不是单词边界
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'\B\d+\B', message)
print(result)  # ['03', '4', '34', '9', '1', '3']
  • ^ : 检测是否是字符串开头
result = findall(r'^\d+', message)
print(result)       # ['203']

# 提取字符串前5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'^.{5}', message)
print(result)       # ['203mn']
  • $检测是否是字符串结尾
# 提取字符串最后5个字符
message = '203mn45,89 司机34kn;23;99mll==910,230 90='
result = findall(r'.{5}$', message)
print(result)    # ['0 90=']


# '\2233'
result = fullmatch(r'\\\d+', '\92233')
print(result)   # <re.Match object; span=(0, 6), match='\\92233'>

八、re模块常用函数

from re import *

1.fullmatch(正则表达式,字符串)

  • 完成匹配,判断整个字符是否符合正则表达式描述的规则,匹配成功返回匹配对象,匹配失败返回空
result = fullmatch(r'\d{3}', '234')
print(result) # <re.Match object; span=(0, 3), match='234'>

2.match(正则表达式,字符串)

  • 匹配字符串开头。判断字符串开头是否符合正则表达式描述的规则,匹配成功返回匹配对象,匹配失败返回空
result = match(r'\d{3}', '823介绍数据库')
print(result)  # <re.Match object; span=(0, 3), match='823'>

3.search(正则表达式,字符串)

  • 获取字符串中第一个能够和正则匹配的成功的子串,匹配成功返回匹配对象,匹配失败返回空
result = search(r'\d{3}', 'ba203还是678说')
print(result)  # <re.Match object; span=(2, 5), match='203'>

4.findall(正则表达式,字符串)

  • 获取字符串中所有满足正则的子串,返回一个列表,列表中的元素是字符串
result = findall(r'\d{3}', 'ba203还是678说kk0222jksn就是23311')
print(result)  # ['203', '678', '022', '233']

5.finditer(正则表达式,字符串)

  • 获取字符串中所有满足正则的子串,返回一个迭代器,迭代器中的元素是每个子串对应的匹配结果
print(result)   # <callable_iterator object at 0x0000020105BB2760>
# print(next(result))
print(list(result))
 # [<re.Match object; span=(2, 5), match='203'>, <re.Match object; span=(7, 10), match='678'>, <re.Match object; span=(13, 16), match='022'>, <re.Match object; span=(23, 26), match='233'>]

6.split(正则表达式,字符串)

  • 将字符串中所有满足正则的子串作为切割点对字符串进行切割
result = split(r'a|b', str1)
print(result)       # ['123', 'MKn', '嗑生嗑死', 'KKss', '923', '===']

7.sub(正则表达式,字符串1,字符串2)

  • 将字符串2中所有满足正则的子串都替换成字符串1
result = sub(r'\d+', '+', 'ba203还是678说kk0222jksn就是23311')
print(result) # ba+还是+说kk+jksn就是+

8.匹配对象

result = search(r'(\d{3})([A-Z]{2})', '-=2设计师234KM222哈哈宿舍239KH')
print(result)       # <re.Match object; span=(6, 11), match='234KM'>
  • 获取整个正则表达式对应的匹配结果:匹配对象.group()
print(result.group())       # '234KM'
  • 手动捕获某个分组对应的匹配结果:匹配对象.group(分组数)
print(result.group(1))      # '234'
print(result.group(2))      # 'KM'
  • 获取匹配结果在原字符串中的位置: 匹配对象.span()
print(result.span())            # (6, 11)
print(result.span(2))           # (9, 11)

9.参数

a. 匹配忽略大小写

result = fullmatch(r'(?i)abc','ABC')

b. 单行匹配(?s):可以和\n进行匹配

  • 多行匹配:匹配的时候,不能和\n进行匹配
result = fullmatch(r'abc.123','abc\n123')
print(result)  # None



练习题:

利用正则表达式完成下面的操作:

一、不定项选择题
  1. 能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( ABD)

    A. r"\(?\d{3}\)?-?\d{8}"
    B. r"[0-9()-]+"
    C. r"[0-9(-)]*\d*"
    D.r"[(]?\d*[)-]*\d*"

  2. 能够完全匹配字符串"back"和"back-end"的正则表达式包括(ABCD )
    A. r'\w{4}-\w{3}|\w{4}'
    B. r'\w{4}|\w{4}-\w{3}'
    C.r'\S+-\S+|\S+'
    D. r'\w*\b-\b\w*|\w*'

  3. 能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(AD)
    A.r'\b(\w+)\b\s+\1\b'
    B. r'\w{2,5}\s*\1'
    C. r'(\S+) \s+\1'
    D. r'(\S{2,5})\s{1,}\1'

  4. 能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(BC )
    A. r"a*?b"
    B. r"a{,2}b"
    C. r"aa??b"
    D. r"aaa??b"

二、编程题

1.用户名匹配

​ 要求: 1.用户名只能包含数字 字母 下划线

​ 2.不能以数字开头

​ 3.⻓度在 6 到 16 位范围内

username = input('请输入用户名:')
result = fullmatch(r'[a-z_A-Z][a-z_A-Z\d]{5,15}', username)
print(result)
  1. 密码匹配

​ 要求: 1.不能包含!@#¥%^&*这些特殊符号

​ 2.必须以字母开头

​ 3.⻓度在 6 到 12 位范围内

password = input('请输入密码:')
result1 = fullmatch(r'[a-zA-Z][^!@#¥%^&*]{5,11}', password)
print(result1)
  1. ipv4 格式的 ip 地址匹配
    提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
ipv4 = input('请输入ip地址:')
result2 = fullmatch(r'(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5]\.){3}(\d|[1-9]\d|1\d\d|2[0-4]\d|25[0-5])', ipv4)
print(result2)
  1. 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
str1 = '-3.14good87nice19bye'
result3 = findall(r'[+-]?[1-9]\d*\.?\d*',str1)
sum = 0
for i in result3:
    sum += float(i)
print(sum)
  1. 验证输入内容只能是汉字
str2 = input('请输入内容:')
result4 = fullmatch(r'[\u4e00-\u9fa5]*',str2)
print(result4)
  1. 匹配整数或者小数(包括正数和负数)
num = input('数字:')
result5 = fullmatch(r'[+-]?\d*\.?\d*', num)
print(result5)
  1. 验证输入用户名和QQ号是否有效并给出对应的提示信息

    要求:
    用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
    QQ号是5~12的数字且首位不能为0

username1 = input('请输入用户名:')
qq = input('请输入qq:')
username1_ = fullmatch(r'[\da-zA-Z]{6-12}', username1)
qq_ = fullmatch(r'[1-9]\d{5,11}', qq)
print(username1_, qq_)
  1. 拆分长字符串:将一首诗的中的每一句话分别取出来

    ​ poem = ‘窗前明月光,疑是地上霜。举头望明月,低头思故乡。’

poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。'
result6 = split(r',|。', poem)
for i in result6:
    print(i)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值