day19 正则表达式

最新推荐文章于 2022-08-10 10:25:32 发布

小邓子在上海流浪

最新推荐文章于 2022-08-10 10:25:32 发布

阅读量368

点赞数

文章标签：正则表达式 python 后端

本文链接：https://blog.csdn.net/qq_57535164/article/details/122115475

版权

day19 正则表达式

一、类的继承

继承：让子类拥有父类所有的属性和方法。

当子类自己定义了自己的属性，就不能用父类的方法了。

"""
class 类名(父类1, 父类2,...):
    pass
"""

class A:
    a = 10

    def __init__(self):
        self.b = 20
        self.c = 30

    def func1(self):
        print('对象方法')

    @classmethod
    def func2(cls):
        print('类方法')

    @staticmethod
    def func3():
        print('静态方法')


class B(A):
    m = 200

    def __init__(self):
        # 调用当前类的父类的__init__方法
        super().__init__()
        self.n = 300

    def func4(self):
        print('B中的对象方法')


x = B()

class A:
    a = 10

    def __init__(self):
        self.b = 20
        self.c = 30

    def func1(self):
        print('对象方法')

    @classmethod
    def func2(cls):
        print('类方法')

    @staticmethod
    def func3():
        print('静态方法')


class B(A):
    m = 200

    def __init__(self):
        # 调用当前类的父类的__init__方法
        super().__init__()
        self.n = 300

    def func4(self):
        print('B中的对象方法')


x = B()

# 使用从父类继承下来的内容
print(x.b, x.c)
print(B.a)

x.func1()
B.func2()
B.func3()

# 使用子类中自己添加的内容
print(B.m)
x.func4()
print(x.n)

二、正则表达式

正则表达式是一个让复杂的字符串变得简单的一个工具

# 1.判断输入的内容是否是一个合法的手机号码
# 1）长度：11位
# 2）纯数字
# 3）第一位是'1'
# 4）第二位: 3~9
nums = '2675172612'


def is_tel(tel_num: str):
    if len(tel_num) != 11:
        return False
    if tel_num[0] != '1':
        return False
    if tel_num[1] in '12':
        return False
    for x in tel_num[1:]:
        if x not in '0123456789':
            return False
    return True


from re import fullmatch, findall


def is_tel2(tel_num: str):
    return fullmatch(r'1[3-9]\d{9}', tel_num) != None

# 2. 提取message中所有的数字: 28、15000、109
message = '小明今年28岁，月薪15000元；体重109斤, 每个月的生活费是3000元'
# result = []
# num_str = ''
# for x in message:
#     if x in '0123456789':
#         num_str += x
#     else:
#         if num_str:
#             result.append(num_str)
#         num_str = ''
# print(result)
result = findall(r'(\d+)元', message)
print(result)

三匹配符号

3.1 re模块简介

# 1.re模块简介
"""
re模块是python用来支持正则相关操作的系统模块

fullmatch(正则表达式, 字符串)  - 判断正则表达式和指定的字符串是否完全匹配，不能匹配结果是None
"""
from re import fullmatch

3.2匹配类符号

正则表达式是由各种各样的正则符号组合而成

3.2.1 普通符号-在正则中没有特殊功能和特殊意义的字符

# 普通字符在正则表达式中表示符号本身， 比例：a ~ z、A ~ Z、0~9、中文、...
result = fullmatch(r'abc\u4e00', 'abc一')
print(result)

3.2.2 特殊符号

# 1) .  -  匹配一个任意字符
# 注意: 一个.只能匹配一个字符
result = fullmatch(r'a..b', 'as=b')
print(result)

# 2) \d  -  匹配任意一个数字字符
result = fullmatch(r'a\db', 'a8b')
print(result)

# 3) \s  -  匹配任意一个空白字符
# 空白字符: 空格、\t、\n
result = fullmatch(r'abc\s123', 'abc\n123')
print(result)

# 4) \D、\S
# \D  - 匹配任意一个非数字字符
# \S  - 匹配任意一个非空白字符
result = fullmatch(r'\Dabc\S123', 'Mabc=123')
print(result)

# 5) [字符集]  -  匹配字符集中任意一个字符
"""
案例：
情况一：全是普通字符； [xyz12] - 匹配x或者y或者z或者1或者1
情况二：包含\开头的匹配符号， 这个时候匹配符号的功能有效; [mn\d] == [mn0123456789]
情况三：减号在两个符号之间，表示谁到谁
      [a-z]  - 匹配任意一个小写字母
      [A-Z]  - 匹配任意一个大写字母
      [a-zA-Z]  -   匹配任意一个字母
      [\u4e00-\u9fa5]  - 匹配任意一个中文
      [1-9] 
      ...
"""
result = fullmatch(r'a[xyz]c', 'alc')
print(result)

result = fullmatch(r'a[\dmn]c', 'a5c')
print(result)

result = fullmatch(r'1[a-z]2', '1k2')
print(result)

result = fullmatch(r'1[A-Z\dmn]2', '1n2')
print(result)

# 6) [^字符集]   -  匹配不在字符集中的任意一个字符
result = fullmatch(r'1[^xyz]2', '1是2')
print(result)

result = fullmatch(r'1[^a-zA-Z]2', '182')
print(result)

四匹配次数

from re import fullmatch

# 用法：匹配符号匹配次数
# 1. *  - 0次或者多次 （任意次数）
"""
a*b  -  b前面有任意多个a
\d*b  -  b前面有任意多个数字  
"""
result = fullmatch(r'a*b', 'aaaaab')
print(result)

result = fullmatch(r'\d*b', '67b')
print(result)

result = fullmatch(r'[xyz]*b', 'xyxzyyxxb')
print(result)

# 2. +  - 1次或多次(至少1次)
result = fullmatch(r'a+b', 'ab')
print(result)

result = fullmatch(r'\d+b', '231212b')
print(result)

result = fullmatch(r'[xyz]+b', 'xyxzyyxxb')
print(result)

# 3. ?  - 0次或者1次
result = fullmatch(r'\d?abc', '4abc')
print(result)

# 练习：写一个正则表达式可以匹配任意一个正整数(不考虑0)
# +234、2730192、1  - 成功
# 023、sh234、-33   -  失败
result = fullmatch(r'[+]?[1-9]\d*', '2812')
print(result)

# 4. {}
"""
{N}    -    N次
{M,N}  - M到N次
{M,}   - 至少M次
{,N}   - 最多N次
"""
result = fullmatch(r'a{3}b', 'aaab')
print(result)

五贪婪和非贪婪

1、贪婪

"""
在匹配次数不确定的时候，匹配模式分为贪婪和非贪婪两种(默认是贪婪模式)
*、+、{M,N}、{M,}、{,N}、?   - 贪婪
*?、+?、{M,N}?、{M,}?、{,N}?、??     -   非贪婪

注意：python中处理fullmatch以外都可能出现贪婪和非贪婪的问题
"""
# 2次 -> 试试b
# 5次 -> 试试bshb
# 7次 -> 试试bshbsb
result = search('.+b', '试试bshbsbj823')
print(result)

result = search('.+?b', '试试bshbsbj823')
print(result)

2、非贪婪

# 非贪婪应用 - 爬虫解析网页数据
import requests


def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
    }
    r = requests.get(url, headers=headers)
    r.encoding = r.apparent_encoding
    return r.text


if __name__ == '__main__':
    html = get_html('https://movie.douban.com/top250')
    # 获取所有的电影名称
    result = findall(r'alt="(.+?)"', html)
    print(result)

六分组和分支

1、分组

from re import fullmatch, findall
# 1.分组  - ()
# 应用场景1：将正则表达式中的部分用()括起来作为一个整体进行相关操作
result = fullmatch(r'([a-z]{3}\d{2}){3}', "abn23msk78skh89")
print(result)

result = fullmatch(r'(ab){3}', 'ababab')
print(result)

# 应用场景2： 重复  -  可以在有分组的正则表达式中通过'\N'来重复它前面第N个分组匹配到的内容
# '3a3'、'9a9'
result = fullmatch(r'(\d)a\1', '9a9')
print(result)

result = fullmatch(r'(\d)([a-z])\2\1', '1mm1')
print(result)

result = fullmatch(r'(\d)([a-z])\2\1{3}', '1mm111')
print(result)

# 应用场景3：捕获  - 使用findall的时候，如果正则表达式中有分组，返回数据的时候只返回分组中匹配到的内容
# 提取在小写字母后面的数字
str1 = 'sf262数据=22是12389mn89ksJK283'
result = findall(r'[a-z](\d+)', str1)
print(result)   # ['262', '89']

result = findall(r'([a-z]{2})=(\d{2})', 'ahjs=2536,话计算机的3223环境-=yu=是mns=239-失败')
print(result)   # [('js', '25'), ('ns', '23')]

# 2.分支  - |
# 正则1 | 正则2  - 正则1和正则2中只要有一个能匹配成功就匹配成功
# 'abc239'、'abcMSH'
result = fullmatch(r'abc\d{3}|abc[A-Z]{3}', 'abc231')
print(result)

result = fullmatch(r'abc(\d{3}|[A-Z]{3})', 'abcKMS')
print(result)