python 内置模块re,正则

本文介绍了Python中的re模块,它是用于处理正则表达式的工具,支持编译、匹配、查找等多种功能,如re.compile、re.findall、re.match等。这些方法在数据提取、爬虫和自动化测试中非常实用。
摘要由CSDN通过智能技术生成
一、简介

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串
re模块是python独有的匹配字符串的模块,该模块种提供功能基于正则表达式实现的,对于字符串进行模糊匹配找到想要的内容信息,一般用于爬虫或者自动化测试前后端不分离项目

二、使用
import re
三、方法
  1. re.compile(pattern,flags=0):函数用于编译正则表达式,生成一个 Pattern 对象,需要跟findall(), search(), match()搭配使用
  • pattern:正则模型
  • falgs :匹配模式,比如忽略大小写,多行模式等
    re.I 忽略大小写
    re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    re.M 多行模式
    re.S 即为’ . ‘并且包括换行符在内的任意字符(’ . ‘不包括换行符)
    re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    re.X 为了增加可读性,忽略空格和’ # ‘后面的注释
    
  • 返回值: Pattern 对象
    import re
    
    reg = re.compile(r'.com')
    print(reg.findall("asdasd.comqweqw"))
    
  1. re.findall(pattern,string,flags=0):找到符合正则的全部结果并返回
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:符合正则的全部结果并返回
  1. re.match(pattern,string,flags=0):从头开始匹配 如果匹配不到就会返回- None 并且匹配到一个就返回后面就不会匹配
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
    import re
    
    content = 'i li2222ke mus3333ic'
    pattern = re.compile("[a-zA-Z]+")#只匹配字母
    result = pattern.match(content)
    print(result.group())
    print(result.groups())
    
  1. re.search(pattern,string,flags=0):和match()差不多,不同的就是可以不从0开始匹配,匹配一个结果就结束
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
  1. re.finditer(pattern,string,flags=0):以迭代器的形式返回能匹配的全部- Match对象
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:以迭代器的形式返回能匹配的全部Match对象,需要循环调用Match对象的group()方法提取匹配的字符串
  1. re.split(pattern, string, maxsplit=0, flags=0):根据正则匹配分割字符串,返回分割后的一个列表
  • pattern:正则模型
  • string :要匹配的字符串
  • maxsplit:指定分割个数
  • flags :匹配模式
  1. re.sub(pattern, repl, string, count=0, flags=0):替换匹配成功的指定位置字符串
  • pattern:正则模型
  • repl :要替换的字符串
  • string :要匹配的字符串
  • count :指定匹配个数
  • flags :匹配模式
  1. re.subn(pattern, repl, string, count=0, flags=0):类似sub(),返回的是元组
四、其他
  1. 正则分组 ?P
    import re
    str='23232c'
    result = re.search(r'(?P<id>\d+)(?P<name>[a-z])',str)
    print(result.group('id'))
    print(result.group('name'))
    
  2. Match对象
  • Match.string: 匹配时用到的文本
  • Match.re: 匹配时用到的Pattern对象
  • Match.pos: 正在表达式开始搜索的索引
  • Match.endpos: 正则表达式结束搜索的索引
  • Match.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,则返回None
  • Match.lastgroup: 最有一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,则返回None
  • Match.group(groupName1,groupName2…): 获取一个或多个分组截获的字符串,如果传入多个参数,则以元组的形式返回
  • Match.groups([default]): 以元组形式返回全部分组截获的字符串,相当于group(1, 2…),default表示没有截获字符串的组的默认值,默认为None
  • Match.groupdict([default]): 返回有别名的组组成的字典,没有别名的组不在返回结果中
  • Match.start([group]): 返回指定的组截获的子串在文本中的起始索引,group默认为0
  • Match.end([group]): 返回指定的组截获的子串在文本中的结束索引,group默认为0
  • Match.span([group]): 返回(start(group), end(group))
  • Match.expand(template): 将匹配到的分组代入template中,可以使用 \id或者\g或者\g引用分组
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

局外人LZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值