python 内置模块re，正则

局外人LZ

已于 2023-05-25 14:01:35 修改

阅读量170

点赞数

分类专栏： python 文章标签： python 开发语言

于 2023-04-29 14:13:00 首次发布

本文链接：https://blog.csdn.net/randy521520/article/details/130430656

版权

python 专栏收录该内容

116 篇文章 22 订阅

订阅专栏

本文介绍了Python中的re模块，它是用于处理正则表达式的工具，支持编译、匹配、查找等多种功能，如re.compile、re.findall、re.match等。这些方法在数据提取、爬虫和自动化测试中非常实用。

摘要由CSDN通过智能技术生成

一、简介

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串
re模块是python独有的匹配字符串的模块，该模块种提供功能基于正则表达式实现的，对于字符串进行模糊匹配找到想要的内容信息，一般用于爬虫或者自动化测试前后端不分离项目

二、使用

import re

三、方法

re.compile(pattern,flags=0)：函数用于编译正则表达式，生成一个 Pattern 对象，需要跟findall(), search(), match(）搭配使用

pattern：正则模型

falgs ：匹配模式,比如忽略大小写，多行模式等

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为’ . ‘并且包括换行符在内的任意字符（’ . ‘不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和’ # ‘后面的注释

返回值： Pattern 对象

import re

reg = re.compile(r'.com')
print(reg.findall("asdasd.comqweqw"))

re.findall(pattern,string,flags=0)：找到符合正则的全部结果并返回

pattern：正则
falgs ：匹配模式,比如忽略大小写，多行模式等
返回值：符合正则的全部结果并返回

re.match(pattern,string,flags=0)：从头开始匹配如果匹配不到就会返回- None 并且匹配到一个就返回后面就不会匹配

pattern：正则
falgs ：匹配模式,比如忽略大小写，多行模式等

返回值：返回匹配结果match对象，需要使用 result.group()或者result.groups()解析结果

import re

content = 'i li2222ke mus3333ic'
pattern = re.compile("[a-zA-Z]+")#只匹配字母
result = pattern.match(content)
print(result.group())
print(result.groups())

re.search(pattern,string,flags=0)：和match()差不多，不同的就是可以不从0开始匹配，匹配一个结果就结束

pattern：正则
falgs ：匹配模式,比如忽略大小写，多行模式等
返回值：返回匹配结果match对象，需要使用 result.group()或者result.groups()解析结果

re.finditer(pattern,string,flags=0)：以迭代器的形式返回能匹配的全部- Match对象

pattern：正则
falgs ：匹配模式,比如忽略大小写，多行模式等
返回值：以迭代器的形式返回能匹配的全部Match对象，需要循环调用Match对象的group()方法提取匹配的字符串

re.split(pattern, string, maxsplit=0, flags=0)：根据正则匹配分割字符串，返回分割后的一个列表

pattern：正则模型
string ：要匹配的字符串
maxsplit：指定分割个数
flags ：匹配模式

re.sub(pattern, repl, string, count=0, flags=0)：替换匹配成功的指定位置字符串

pattern：正则模型
repl ：要替换的字符串
string ：要匹配的字符串
count ：指定匹配个数
flags ：匹配模式

re.subn(pattern, repl, string, count=0, flags=0)：类似sub()，返回的是元组

四、其他

正则分组 ?P

import re
str='23232c'
result = re.search(r'(?P<id>\d+)(?P<name>[a-z])',str)
print(result.group('id'))
print(result.group('name'))

Match对象

Match.string: 匹配时用到的文本
Match.re: 匹配时用到的Pattern对象
Match.pos: 正在表达式开始搜索的索引
Match.endpos: 正则表达式结束搜索的索引
Match.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，则返回None
Match.lastgroup: 最有一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，则返回None
Match.group(groupName1,groupName2…): 获取一个或多个分组截获的字符串，如果传入多个参数，则以元组的形式返回
Match.groups([default]): 以元组形式返回全部分组截获的字符串，相当于group(1, 2…)，default表示没有截获字符串的组的默认值，默认为None
Match.groupdict([default]): 返回有别名的组组成的字典，没有别名的组不在返回结果中
Match.start([group]): 返回指定的组截获的子串在文本中的起始索引，group默认为0
Match.end([group]): 返回指定的组截获的子串在文本中的结束索引，group默认为0
Match.span([group]): 返回(start(group), end(group))
Match.expand(template): 将匹配到的分组代入template中，可以使用 \id或者\g或者\g引用分组