Python进阶丨正则表达式（中）

最新推荐文章于 2022-09-08 21:36:29 发布

So.ne

最新推荐文章于 2022-09-08 21:36:29 发布

阅读量141

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/m0_45198298/article/details/103906005

版权

Python 专栏收录该内容

74 篇文章 0 订阅

订阅专栏

正则表达式

- 内容

组的概念

贪婪与非贪婪

- 组

连续的满足某个条件的字符串，()内的内容构成一个组。

# 提取文章发布日期

import re

content = '发布于2020/1/9'
result = re.findall('.*?(\d.*\d)', content)
# .*表示匹配除换行符外的任意字符，？表示非贪婪匹配
# (\d.*\d)表示一个组，以数字开头，以数字结尾

print(result)
# 返回的结果就是括号内匹配到的结果
# 输出结果：['2020/1/9']

没有括号

import re

content = '发布于2020/1/9'
result = re.findall('.*?\d.*\d', content)

print(result)
# ['发布于2020/1/9']
# 因为Python默认会再正则表达式首尾各添加一个括号
# 等价于result = re.findlaa(('.*?\d.&\d'), content)

多个组

# 实现功能：提取发布时间和发布人

import re

content = '发布于2020/1/9，发布人：派森.'
result = re.findall('.*?(\d.*\d).*：(.*)', content)
# 两个括号之间的.*:表示中间是除换行符以外的任意字符，直到遇见:才终止，进入第二个组

print(result)
# 输出结果：[('2020/1/9', '派森.')]

- match方法

语法：

re.match(pattern, string, flags=0)

参数：

pattern：匹配的正则表达式

string：要匹配的字符串

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

例

# 实现功能：提取发布时间和发布人

import re

content = '发布于2020/1/9，发布人：派森.'
result = re.match('.*?(\d.*\d).*：(.*)', content)
# match方法的参数和findall是一样的，返回的结果是ERE_Match对象

print(result.group())   # 该方法默认是result.group(0)
# 输出结果：发布于2020/1/9，发布人：派森.
# result.group(0)获取的内容就是最外层的括号匹配的内容
# 相当于('(.*?\d.*\d).*：(.*))')

print(result.group(1))
# 输出结果：2020/1/9
# 获取的内容是(\d.*\d)匹配到的内容

print(result.group(2))
# 输出结果：派森.
# 获取的内容是(.*)匹配到的内容

print(result.groups())
# 输出结果：('2020/1/9', '派森.')

使用match注意事项

import re

content = '评论数:12'
result = re.match('\d', content)

print(result)
# 输出结果：None
# 如果print(result.group())会报错
# 原因match方法是从content第一个字符开始匹配\d，如果未匹配到，直接就返回None，这里因为content第一个字符不是数字，所以直接返回None

- 非贪婪模式

# 实现功能：提取发布时间，比较贪婪与非贪婪

import re

content = '发布于2020/01/09'
result = re.findall('.*?(\d.*\d)', content)
# 这里的?表示的就是非贪婪模式，第一个.*会尽可能少地取匹配内容，因为后面跟的是\d，所以碰见第一个数字就终止了

print(result)
# 输出结果：['2020/01/09']

- 贪婪模式

import re

content = '发布于2020/01/09'
result = re.findall('.*(\d.*\d)', content)

print(result)
# 输出结果：['09']

第一个.*后面添加问好，表示的就是贪婪模式，第一个.*会尽可能多地去匹配内容，后面跟的是\d，碰见第一个数字并不一定会终止，当它匹配到2020的2的时候，发现剩下的内容依然满足(\d.*\d)，所以会一致匹配下去，直到匹配到01后面的/的时候，发现剩下的09依然满足(\d.*\d)，但是如果再匹配下去，匹配到09的0的话，剩下的9就不满足(\d.*\d)了，所以第一个.*就会停止匹配，(\d.*\d)最终匹配到的结果就只剩下09了

非贪婪与贪婪模式案例

例1

import re

content = '发布于2020/01/09'
result = re.findall('.*(\d.*?\d)', content)

print(result)
# 输出结果：['09']

第一个.*是贪婪模式，会一直匹配到12后面的/，这样结果就是[‘09’]

例2

import re

content = '发布于2020/01/09'
result = re.findall('.*?(\d.*?\d)', content)

print(result)
# 输出结果：['20', '20', '01', '09']

第一个.*?表示非贪婪模式，匹配到2020前面的’于’之后就停止了
括号里的.*?也是表示非贪婪模式，括号里的内容从2020的2开始匹配，因为后面一个数字是0，那么也就满足了(\d.*?\d)，所以就直接返回结果了，同样的，接下来的20也是这样，一直匹配到09才结束。

So.ne

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python进阶丨正则表达式（中）

正则表达式.- 内容组的概念贪婪与非贪婪- 组连续的满足某个条件的字符串，()内的内容构成一个组。# 提取文章发布日期import recontent = '发布于2020/1/9'result = re.findall('.*?(\d.*\d)', content)# .*表示匹配除换行符外的任意字符，？表示非贪婪匹配# (\d.*\d)表示一个组，以数字开头，以数字...
复制链接

扫一扫

专栏目录