DAY2 - 正则表达式

初级码农12138

已于 2023-03-28 19:29:28 修改

阅读量116

点赞数

文章标签：正则表达式 python 开发语言

于 2023-03-28 19:26:03 首次发布

本文链接：https://blog.csdn.net/qq_51171222/article/details/129822955

版权

DAY2 - 正则表达式

一、OS

import os

os.mkdir(文件夹路径) - 在指定的位置创建指定文件夹

os.mkdir('files/test')

os.path.exists(文件夹路径/文件路径) - 判断指定文件夹或者文件是否存在

if not os.path.exists('files/test'):
    os.mkdir('files/test')

二、正则

import re
from re import *

1. 正则的作用

正则表达式是一种可以让复杂的字符串变得简单的工具。
写正则表达式就是用正则符号来描述字符串规则

# 案例1：判断一个字符串是否是一个合法的手机号码
tel = '23297293329'

# 方法1：不用正则
if len(tel) == 11:
    if tel[0] == '1':
        if tel[1] in '3456789':
            if tel[2:].isdigit():
                print('合法')
            else:
                print('不合法')
        else:
            print('不合法')
    else:
        print('不合法')
else:
    print('不合法')

print('--------------------------------华丽的分割线-------------------------------------')
result = re.fullmatch(r'1[3-9]\d{9}', tel)
if result:
    print('合法')
else:
    print('不合法')


# 案例2：提取字符串中所有的数字子串，并且求和
str1 = '睡觉89jss=3.45-换手23=抗生素820=8'
result = re.findall(r'\d+\.?\d*', str1)
print(sum([float(x) for x in result]))

三、正则表达式

1.re模块 - 提供了python中所有和正则相关的函数

fullmatch(正则表达式,字符串) - 判断整个字符串是否满足正则表达式所描述的规则
findall(正则表达式,字符串) - 提取字符串中所有满足正则表达式的子串
search(正则表达式,字符串) -匹配字符串中第一个满足正则表达式的字子串

注意：Python中表示一个正则表达式一般使用r字符串

2.正则符号

第一类符号：匹配类符号

1）普通符号 - 在正则表达式中表示符号本身的符号

result = fullmatch(r'abc','abc')
print(result)

2) . - 匹配任意一个字符

result = fullmatch(r'.bc','*bc')
print(result)


result = fullmatch(r'.bc.',',1bcu')     #四个字符，开头结尾字符任意
print(result)

3）\d - 匹配任意一个数字字符

result = fullmatch(r'\d\dabc','12abc')    #abc前任意两个数字
print(result)

4)\s - 匹配任意一个空白字符

空白字符：空格（’ ‘）、换行（’\n’）、水平制表符（‘\t’）

result = fullmatch(r'123\sabc','123\tabc')
print(result)

result = fullmatch(r'\d\d\s\d', '89 2')
print(result)

5) \w - 匹配任意一个字母、数字、下划线或者中文

result = fullmatch(r'123\wabc','123好abc')
print(result)

6）\D 、\S、\W - 分别和\d、\w、\s的功能相反

result = fullmatch(r'abc\D123', 'abc8123')
print(result)       # None

7)[字符集] - 匹配在字符集中的任意一个字符

"""
[abc]   -  匹配a或者b或者c
[abc\d] -  匹配a或者b或者c或者任意数字:[abc0123456789]
[1-5]  -   匹配字符1到字符5中的任意一个字符
[a-z]  -   匹配任意一个小写字母
[A-Z]   -      匹配任意一个大写字母
[a-zA-Z]   -   匹配任意一个字母
[a-zA-Z\d]  -  匹配任意一个字母数字
[a-z=%]   -  匹配小写字母、或者 = 或者 %
[\u4e00-\u9fa5]    -   匹配任意中文
"""

result = fullmatch(r'123[M9你]abc','123Mabc')   #只有 M 9你 三种情况
print(result)

result = fullmatch(r'abc[M9你\d]123', 'abc0123')
print(result)

result = fullmatch(r'abc[\u4e00-\u9fa5]123', 'abc和123')
print(result)

8)[^字符集] - 匹配不在字符集中的任意一个字符

result = fullmatch(r'123[^M9你]abc','123Eabc')   #只有 M 9你 三种情况不可以
print(result)

result = fullmatch(r'abc[^MN]123', 'abc)123')
print(result)

result = fullmatch(r'abc[^a-z]123', 'abc$123')
print(result)

result = fullmatch(r'abc[M^N]123', 'abcM123')
print(result)

第二类符号：匹配次数符号

匹配类符号匹配次数

2.正则符号

"""
a*  -  a出现任意多次
\d*  -  任意多个任意数字
[abc]*  

"""

result = fullmatch(r'1a*2','1aaaaaa2')
print(result)

result =fullmatch(r'M\dN','MN')
print(result)

result = fullmatch(r'M[3-9]*N', 'M3489N')
print(result)

2)+ - 一次或者多次（至少一次）

result = fullmatch(r'1a+2', '1aaa2')
print(result)

3)? - 0或者1次

result =fullmatch(r'1a?2','1aa2')
print(result)   #None

4){}

"""
{N}    -   N次
{M,N}  - M到N次
{M,}   - 至少M次
{,N}    -  最多N次
"""

# 练习：写一个正则表达式，可以匹配任意一个除了0的整数。
# 合法：233、+234、-7283、100、-2000
# 不合法：0、0002、2.23

result = fullmatch(r'[+-]?[1-9]\d*', '30')
print(result)

# 练习：使用正则表达式提取top250中每个电影的详情页地址
from re import fullmatch

import requests
from re import findall
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
response = requests.get('https://movie.douban.com/top250?start=0&filter=',headers=headers)
# print(response.text)
result = findall(r'a href="https://movie.douban.com/subject/\d*/" class=""',response.text)
print(result)

# 练习：使用正则表达式提取top250中每个电影的名字
import requests
from re import findall
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
response = requests.get('https://movie.douban.com/top250?start=0&filter=',headers=headers)
# print(response.text)
result = findall(r'<img width="100" alt="(.+?)"',response.text)
print(result)

5)非贪婪模式

"""
在匹配次数不确定的时候，如果有多种次数都可以匹配成功，贪婪取最多的那个次数，非贪婪取最少的次数
贪婪模式：+、?、*、{M,N}、{M,}、{,N}
非贪婪模式：+?、??、*?、{M,N}?、{M,}?、{,N}?
"""

# 'ahkmb'、'ahkmb收拾b'、'ahkmb收拾b收b'
result = search(r'a.+b', '收拾收拾收ahkmb收拾b收b3]er2')
print(result)       # <re.Match object; span=(5, 15), match='ahkmb收拾b收b'>

result = search(r'a.+?b', '收拾收拾收ahkmb收拾b收b3]er2')
print(result)       # <re.Match object; span=(5, 10), match='ahkmb'>

# 'ahkmb'
result = search(r'a.+b', '收拾收拾收ahkmb3]er2')
print(result)       # <re.Match object; span=(5, 10), match='ahkmb'>

result = search(r'a.+?b', '收拾收拾收ahkmb3]er2')
print(result)       # <re.Match object; span=(5, 10), match='ahkmb'>

第三类符号：分组和分支

1）分组 - ()

"""
正则表达式中可以用()将部分内容括起来表示一个整体；括号括起来的部分就是一个分组
a.整体操作的时候需要分组
b.重复匹配 - 正则中可以通过\M来重复它前面第M个分组匹配的结果
c.捕获  -  提取分组匹配到的结果（捕获分为自动捕获（findall）和手动捕获）
"""

result = fullmatch(r'(\d\d[A-Z])+','23XS24SH67SH')
print(result)

result = fullmatch(r'(\d\d)[A-Z]\1','23X23')
print(result)

result = fullmatch(r'(\d{3})([a-z]{2})=\2\1{2}','234jd=jd234234')
print(result)

findall 在正则表达式中有分组的时候，会自动提取正则匹配结果中分组匹配到的内容

message = '技术上234，dshcb89994==948-xbdshb下降42'
result = findall(r'[\u4e00-\u9fa5](\d+)',message)
print(result)

匹配对象.group(N) - 获取匹配结果中指定分组匹配到的内容

# 提取身高
message = '我是小明，今年23岁，身高180厘米，体重70kg'
result = search(r'身高(\d+)厘米，体重(\d+)kg', message)
print(result)       # <re.Match object; span=(11, 25), match='身高180厘米，体重70kg'>
print(result.group())       # '身高180厘米，体重70kg'
print(result.group(1), result.group(2))      # 180 70

2）分支 - |

"""
正则1|正则2|正则3|...     -   先用正则1进行匹配，匹配成功直接成功；匹配失败用正则2进行匹配,....
"""

result = fullmatch(r'\d{3}|[a-z]{2}', 'mn')
print(result)

# 'abc34'、'abcKJ'、'abc78'、'abcOP'
result = fullmatch(r'abc\d\d|abc[A-Z]{2}', 'abc23')
print(result)

result = fullmatch(r'abc(\d\d|[A-Z]{2})', 'abcKS')
print(result)

3）转义符号 - 在本身具有特殊功能或者特殊意义的符号前加 \ ，让特殊符号变成普通

# 匹整数部分和小数部分都是两位数的小数
result = fullmatch(r'\d\d\.\d\d', '23.45')
print(result)

result = fullmatch(r'\d\+\d', '3+4')
print(result)

# '(amd)'
result = fullmatch(r'\([a-z]{3}\)', '(jsk)')
print(result)

# 注意：单独存在有特殊意义的符号，在[]中它的功能会自动消失
result = fullmatch(r'\d[+.?*()\]]\d', '3]4')
print(result)

四、re模块

from re import fullmatch, findall, search, split, sub, finditer, match

"""
1)fullmatch(正则, 字符串)  -  用整个字符串和正则，匹配成功返回匹配对象，匹配失败返回None
2)findall(正则, 字符串)  -   获取字符串中所有满足正则的子串，默认返回一个列表，列表中的元素是所有匹配到的子串（存在自动捕获现象）
3)search(正则, 字符串)   -   匹配第一个满足正则的子串,匹配成功返回匹配对象，匹配失败返回None
4)split(正则, 字符串)    -   将字符串中所有满足正则的子串作为切割点进行切割
5)split(正则, 字符串, N)     -   将字符串中前N个满足正则的子串作为切割点进行切割
6)sub(正则, 字符串1, 字符串2)   -   将字符串2中所有满足正则的子串都替换成字符串1
7)sub(正则, 字符串1, 字符串2, N) 
8)finditer(正则, 字符串) -   获取字符串中所有满足正则的子串，返回一个迭代器，迭代器中的元素是匹配对象
9)match(正则, 字符串)  -  匹配字符串开头
"""

str1 = '技术7晋级赛7jsks7就开始看'
print(str1.split('7', 2))

str1 = '技术22晋级赛709jsks511就开始80看'
print(split(r'\d+', str1, 2))

str1 = '技术22晋级赛709jsks511就开始80看'
print(sub(r'\d', '+', str1))

message = '妈的，SB,都打起来了你还在打野！草！F u c k'
print(sub(r'(?i)妈的|sb|草|操|艹|f\s*u\s*c\s*k', '*', message))

str1 = '技术22晋级赛709jsks511就开始80看'
result = finditer(r'\d+', str1)
print(list(result))

print(fullmatch(r'\d{3}', '234'))
print(match(r'\d{3}', '234卡咖啡'))

1）忽略大小写: (?i)

print(fullmatch(r'(?i)abc', 'abc'))
print(fullmatch(r'(?i)abc', 'Abc'))
print(fullmatch(r'(?i)abc', 'ABc'))
print(fullmatch(r'(?i)abc', 'aBc'))

2）单行匹配：(?s)

# 多行匹配(默认)：. 不能和换行符进行匹配
# 单行匹配：. 可以和换行符进行匹配

print(fullmatch(r'abc.123', 'abc\n123'))        # None
print(fullmatch(r'(?s)abc.123', 'abc\n123'))    # <re.Match object; span=(0, 7), match='abc\n123'>

msg = """
'name:"jshf2-
2ss技术"'
"""
result = findall(r'(?s)name:"(.+)"', msg)
print(result)