day19 正则表达式
一、类的继承
继承:让子类拥有父类所有的属性和方法。
当 子类自己定义了自己的属性,就不能用父类的方法了。
"""
class 类名(父类1, 父类2,...):
pass
"""
class A:
a = 10
def __init__(self):
self.b = 20
self.c = 30
def func1(self):
print('对象方法')
@classmethod
def func2(cls):
print('类方法')
@staticmethod
def func3():
print('静态方法')
class B(A):
m = 200
def __init__(self):
# 调用当前类的父类的__init__方法
super().__init__()
self.n = 300
def func4(self):
print('B中的对象方法')
x = B()
class A:
a = 10
def __init__(self):
self.b = 20
self.c = 30
def func1(self):
print('对象方法')
@classmethod
def func2(cls):
print('类方法')
@staticmethod
def func3():
print('静态方法')
class B(A):
m = 200
def __init__(self):
# 调用当前类的父类的__init__方法
super().__init__()
self.n = 300
def func4(self):
print('B中的对象方法')
x = B()
# 使用从父类继承下来的内容
print(x.b, x.c)
print(B.a)
x.func1()
B.func2()
B.func3()
# 使用子类中自己添加的内容
print(B.m)
x.func4()
print(x.n)
二、正则表达式
正则表达式是一个让复杂的字符串变得简单的一个工具
# 1.判断输入的内容是否是一个合法的手机号码
# 1)长度:11位
# 2)纯数字
# 3)第一位是'1'
# 4)第二位: 3~9
nums = '2675172612'
def is_tel(tel_num: str):
if len(tel_num) != 11:
return False
if tel_num[0] != '1':
return False
if tel_num[1] in '12':
return False
for x in tel_num[1:]:
if x not in '0123456789':
return False
return True
from re import fullmatch, findall
def is_tel2(tel_num: str):
return fullmatch(r'1[3-9]\d{9}', tel_num) != None
# 2. 提取message中所有的数字: 28、15000、109
message = '小明今年28岁,月薪15000元;体重109斤, 每个月的生活费是3000元'
# result = []
# num_str = ''
# for x in message:
# if x in '0123456789':
# num_str += x
# else:
# if num_str:
# result.append(num_str)
# num_str = ''
# print(result)
result = findall(r'(\d+)元', message)
print(result)
三 匹配符号
3.1 re模块简介
# 1.re模块简介
"""
re模块是python用来支持正则相关操作的系统模块
fullmatch(正则表达式, 字符串) - 判断正则表达式和指定的字符串是否完全匹配,不能匹配结果是None
"""
from re import fullmatch
3.2匹配类符号
正则表达式是由各种各样的正则符号组合而成
3.2.1 普通符号-在正则中没有特殊功能和特殊意义的字符
# 普通字符在正则表达式中表示符号本身, 比例:a ~ z、A ~ Z、0~9、中文、...
result = fullmatch(r'abc\u4e00', 'abc一')
print(result)
3.2.2 特殊符号
# 1) . - 匹配一个任意字符
# 注意: 一个.只能匹配一个字符
result = fullmatch(r'a..b', 'as=b')
print(result)
# 2) \d - 匹配任意一个数字字符
result = fullmatch(r'a\db', 'a8b')
print(result)
# 3) \s - 匹配任意一个空白字符
# 空白字符: 空格、\t、\n
result = fullmatch(r'abc\s123', 'abc\n123')
print(result)
# 4) \D、\S
# \D - 匹配任意一个非数字字符
# \S - 匹配任意一个非空白字符
result = fullmatch(r'\Dabc\S123', 'Mabc=123')
print(result)
# 5) [字符集] - 匹配字符集中任意一个字符
"""
案例:
情况一:全是普通字符; [xyz12] - 匹配x或者y或者z或者1或者1
情况二:包含\开头的匹配符号, 这个时候匹配符号的功能有效; [mn\d] == [mn0123456789]
情况三:减号在两个符号之间,表示谁到谁
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母
[\u4e00-\u9fa5] - 匹配任意一个中文
[1-9]
...
"""
result = fullmatch(r'a[xyz]c', 'alc')
print(result)
result = fullmatch(r'a[\dmn]c', 'a5c')
print(result)
result = fullmatch(r'1[a-z]2', '1k2')
print(result)
result = fullmatch(r'1[A-Z\dmn]2', '1n2')
print(result)
# 6) [^字符集] - 匹配不在字符集中的任意一个字符
result = fullmatch(r'1[^xyz]2', '1是2')
print(result)
result = fullmatch(r'1[^a-zA-Z]2', '182')
print(result)
四 匹配次数
from re import fullmatch
# 用法:匹配符号匹配次数
# 1. * - 0次或者多次 (任意次数)
"""
a*b - b前面有任意多个a
\d*b - b前面有任意多个数字
"""
result = fullmatch(r'a*b', 'aaaaab')
print(result)
result = fullmatch(r'\d*b', '67b')
print(result)
result = fullmatch(r'[xyz]*b', 'xyxzyyxxb')
print(result)
# 2. + - 1次或多次(至少1次)
result = fullmatch(r'a+b', 'ab')
print(result)
result = fullmatch(r'\d+b', '231212b')
print(result)
result = fullmatch(r'[xyz]+b', 'xyxzyyxxb')
print(result)
# 3. ? - 0次或者1次
result = fullmatch(r'\d?abc', '4abc')
print(result)
# 练习:写一个正则表达式可以匹配任意一个正整数(不考虑0)
# +234、2730192、1 - 成功
# 023、sh234、-33 - 失败
result = fullmatch(r'[+]?[1-9]\d*', '2812')
print(result)
# 4. {}
"""
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次
"""
result = fullmatch(r'a{3}b', 'aaab')
print(result)
五 贪婪和非贪婪
1、贪婪
"""
在匹配次数不确定的时候,匹配模式分为贪婪和非贪婪两种(默认是贪婪模式)
*、+、{M,N}、{M,}、{,N}、? - 贪婪
*?、+?、{M,N}?、{M,}?、{,N}?、?? - 非贪婪
注意:python中处理fullmatch以外都可能出现贪婪和非贪婪的问题
"""
# 2次 -> 试试b
# 5次 -> 试试bshb
# 7次 -> 试试bshbsb
result = search('.+b', '试试bshbsbj823')
print(result)
result = search('.+?b', '试试bshbsbj823')
print(result)
2、非贪婪
# 非贪婪应用 - 爬虫解析网页数据
import requests
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
r = requests.get(url, headers=headers)
r.encoding = r.apparent_encoding
return r.text
if __name__ == '__main__':
html = get_html('https://movie.douban.com/top250')
# 获取所有的电影名称
result = findall(r'alt="(.+?)"', html)
print(result)
六 分组和分支
1、分组
from re import fullmatch, findall
# 1.分组 - ()
# 应用场景1:将正则表达式中的部分用()括起来作为一个整体进行相关操作
result = fullmatch(r'([a-z]{3}\d{2}){3}', "abn23msk78skh89")
print(result)
result = fullmatch(r'(ab){3}', 'ababab')
print(result)
# 应用场景2: 重复 - 可以在有分组的正则表达式中通过'\N'来重复它前面第N个分组匹配到的内容
# '3a3'、'9a9'
result = fullmatch(r'(\d)a\1', '9a9')
print(result)
result = fullmatch(r'(\d)([a-z])\2\1', '1mm1')
print(result)
result = fullmatch(r'(\d)([a-z])\2\1{3}', '1mm111')
print(result)
# 应用场景3:捕获 - 使用findall的时候,如果正则表达式中有分组,返回数据的时候只返回分组中匹配到的内容
# 提取在小写字母后面的数字
str1 = 'sf262数据=22是12389mn89ksJK283'
result = findall(r'[a-z](\d+)', str1)
print(result) # ['262', '89']
result = findall(r'([a-z]{2})=(\d{2})', 'ahjs=2536,话计算机的3223环境-=yu=是mns=239-失败')
print(result) # [('js', '25'), ('ns', '23')]
# 2.分支 - |
# 正则1 | 正则2 - 正则1和正则2中只要有一个能匹配成功就匹配成功
# 'abc239'、'abcMSH'
result = fullmatch(r'abc\d{3}|abc[A-Z]{3}', 'abc231')
print(result)
result = fullmatch(r'abc(\d{3}|[A-Z]{3})', 'abcKMS')
print(result)