一、简介
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串
re模块是python独有的匹配字符串的模块,该模块种提供功能基于正则表达式实现的,对于字符串进行模糊匹配找到想要的内容信息,一般用于爬虫或者自动化测试前后端不分离项目
二、使用
import re
三、方法
- re.compile(pattern,flags=0):函数用于编译正则表达式,生成一个 Pattern 对象,需要跟findall(), search(), match()搭配使用
- pattern:正则模型
- falgs :匹配模式,比如忽略大小写,多行模式等
re.I 忽略大小写 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境 re.M 多行模式 re.S 即为’ . ‘并且包括换行符在内的任意字符(’ . ‘不包括换行符) re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库 re.X 为了增加可读性,忽略空格和’ # ‘后面的注释
- 返回值: Pattern 对象
import re reg = re.compile(r'.com') print(reg.findall("asdasd.comqweqw"))
- re.findall(pattern,string,flags=0):找到符合正则的全部结果并返回
- pattern:正则
- falgs :匹配模式,比如忽略大小写,多行模式等
- 返回值:符合正则的全部结果并返回
- re.match(pattern,string,flags=0):从头开始匹配 如果匹配不到就会返回- None 并且匹配到一个就返回后面就不会匹配
- pattern:正则
- falgs :匹配模式,比如忽略大小写,多行模式等
- 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
import re content = 'i li2222ke mus3333ic' pattern = re.compile("[a-zA-Z]+")#只匹配字母 result = pattern.match(content) print(result.group()) print(result.groups())
- re.search(pattern,string,flags=0):和match()差不多,不同的就是可以不从0开始匹配,匹配一个结果就结束
- pattern:正则
- falgs :匹配模式,比如忽略大小写,多行模式等
- 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
- re.finditer(pattern,string,flags=0):以迭代器的形式返回能匹配的全部- Match对象
- pattern:正则
- falgs :匹配模式,比如忽略大小写,多行模式等
- 返回值:以迭代器的形式返回能匹配的全部Match对象,需要循环调用Match对象的group()方法提取匹配的字符串
- re.split(pattern, string, maxsplit=0, flags=0):根据正则匹配分割字符串,返回分割后的一个列表
- pattern:正则模型
- string :要匹配的字符串
- maxsplit:指定分割个数
- flags :匹配模式
- re.sub(pattern, repl, string, count=0, flags=0):替换匹配成功的指定位置字符串
- pattern:正则模型
- repl :要替换的字符串
- string :要匹配的字符串
- count :指定匹配个数
- flags :匹配模式
- re.subn(pattern, repl, string, count=0, flags=0):类似sub(),返回的是元组
四、其他
- 正则分组 ?P
import re str='23232c' result = re.search(r'(?P<id>\d+)(?P<name>[a-z])',str) print(result.group('id')) print(result.group('name'))
- Match对象
- Match.string: 匹配时用到的文本
- Match.re: 匹配时用到的Pattern对象
- Match.pos: 正在表达式开始搜索的索引
- Match.endpos: 正则表达式结束搜索的索引
- Match.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,则返回None
- Match.lastgroup: 最有一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,则返回None
- Match.group(groupName1,groupName2…): 获取一个或多个分组截获的字符串,如果传入多个参数,则以元组的形式返回
- Match.groups([default]): 以元组形式返回全部分组截获的字符串,相当于group(1, 2…),default表示没有截获字符串的组的默认值,默认为None
- Match.groupdict([default]): 返回有别名的组组成的字典,没有别名的组不在返回结果中
- Match.start([group]): 返回指定的组截获的子串在文本中的起始索引,group默认为0
- Match.end([group]): 返回指定的组截获的子串在文本中的结束索引,group默认为0
- Match.span([group]): 返回(start(group), end(group))
- Match.expand(template): 将匹配到的分组代入template中,可以使用 \id或者\g或者\g引用分组