正则表达式的各种方法

 

所有内容均参考python变成快速上手一书

python的所有正则表达式都在re模块中。

向re.compile()传入一个字符串,表示正则表达式,它将返回一个Regex模式对象

1:匹配Regex对象

h1 = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = h1.search('my phone is 415-555-4242')
print(mo.group())


输出结果:
415-555-4242

注意:python的转义符为反斜杠'\',字符串’\n‘表示一个换行符,要想打印’\‘,需要在'\'前再加上一个反斜杠,即'\\'

2:利用括号分组

h1 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = h1.search('my phone is 415-555-4242')
print(mo.group(1))
print(mo.group(2))
print(mo.group(0))
print(mo.group())


输出结果:
415
555-4242
415-555-4242
415-555-4242

3:利用管道分组

字符|被称为管道。希望匹配多个表达式中的一个,若多个表达式均出现,则第一个被匹配的作为返回对象(可以用findall()方法找到所有匹配对象)

h1 = re.compile(r'tom|tim|jim')
mo = h1.search('tim is tom')
print(mo.group())

输出:
tim

4.用问好实现可选匹配

字符?表明他前面的分组在这个模式中是可选的(可存在可不存在)(可以理解为匹配这个问号之前的元组零次或者一次)

h1 = re.compile(r'tom(tim)?jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
print(mo.group())
print(mo1.group())

输出:
timtom
tomtimjim

5.用*号匹配零次或者多次

*号表示“匹配零次或者多次”,即在*号之前的元组可以出现任意次。(如果想匹配真正的*号需要在*号前加上反斜杠\)

h1 = re.compile(r'tom(tim)*jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
mo2 = h1.search('tomtimtimtimtimjim')
print(mo.group())
print(mo1.group())
print(mo2.group())

输出:
timtom
tomtimjim
tomtimtimtimtimjim

6.用加号匹配一次或者多次

+号意味着”匹配一次或者多次“,与*号不同的是+号前面的元组必须出现至少一次

h1 = re.compile(r'tom(tim)+jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
mo2 = h1.search('tomtimtimtimtimjim')
print(mo.group())
print(mo1.group())
print(mo2.group())

输出:
报错
tomtimjim
tomtimtimtimtimjim

7.用花括号匹配特定次数

{}中的参数可以为一个数字,{n}:表示出现n次;也可以有多个数字{n,m}:表示可以出现在这个范围中均可以,即[n,m],当参数n不传入时,表示[0,m],即0到m次,当参数m不传入时,表示[n,无穷],即至少出现n次。

注意:此时涉及到贪心和非贪心匹配,因为{3,5}表示出现3,4,5次,这时候会匹配哪一个?python的默认正则表达式时”贪心“的,这表示在同时存在多个时,会优先匹配最长的字符串,”非贪心“匹配最短的字符串,即在花括号最后面加上?号

h1 = re.compile(r'A{3,5}')
mo1 = h1.search('AAAAA')
print(mo.group())

h2 = re.compile(r'A{3,5}?')
mo2 = h2.search('AAAAA')
print(mo2.group())

输出:
AAAAA
AAA

8,findall()方法

除了search()方法,还有一个findall()方法。search()方法是返回一个对象,即第一次匹配的文本,而findall()方法返回一组字符串,包含所有被匹配的文本。findall()返回的是一个字符串列表, 如果正则表达式中有分组,则findall()返回元组的列表

h1 = re.compile(r'\d\d-\d')
mo1 = h1.search('my m:11-2,you m:22-3')
print(mo.group())

输出:
11-2



h1 = re.compile(r'\d\d-\d')
h1.findall('my m:11-2,you m:22-3')

输出:
['11-2','22-3']


h1 = re.compile(r'(\d\d)-(\d)')
h1.findall('my m:11-2,you m:22-3')

输出:
[('11','2'),('22','3')]

9,字符分类

前面的例子可以知道\d表示任何数字,即0~9。

\d       0到9的任何数字

\D       除了0到9的任何字符

\w        任何字母,数字或者下划线字符(可以认为是匹配”单词“字符)

\W       除字母,数字和下划线以外的任意字符

\s         空格,制表符或者换行符(可以认为匹配”空白“字符)

\S        除空格,制表符和换行符以外的任意字符

10,建立自己的字符分类

有时候匹配一段字符串,而字符分类太过广泛,可以用方括号定义自己的字符分类。也可以用横线-表示字母或者数字的范围(a-zA-Z0-9将匹配所有小写字母,大写字母和数字)在方括号内的正则表达式不会被解释,意味着不用在前面加上反斜杠转义,例如匹配0到5和一个句点.此时就不需要将它写成[0-5\.];通过在方括号的开头加上一个插入字符^,就可以得到不在这个字符类中的字符。

h1 = re.compile(r'[abcdefg]')
h1.findall('aabbkzggd')

输出:
['a','a','b','b','g','g','d']


h1 = re.compile(r'[^abcdefg]')
h1.findall('aabbkzggd')
输出:
['k','z']

11,插入字符和美元符号

 在正则表达式的开始处加上一个插入字符^,表明匹配必须发生在被查找文本的开始处。类似的,在末尾加上美元符号$,表示必须以这个正则表达式的模式结束,这两个字符也可以同时使用,表明该字符串必须匹配该模式,也就是说,只匹配该字符串的一个子类是不行的。

h1 = re.compile(r'^hello')
h1.search('hello')
输出:
<re.Match object; span=(0, 5), match='hello'>

h1 = re.compile(r'^hello')
h1.search('hell') == None
输出:True

12,通配字符,用点-星匹配所有字符,用句点字符匹配换行符,不区分大小写的匹配

通配字符.(句点)可以匹配除了换行符之外的所有字符(句点字符只匹配一个字符)

要想匹配所有字符串,则可以使用re.complie(r'.*?')(可以自行选择使用贪心或者非贪心模式)

点-星将匹配除换行符外的所有字符,通过传入re.DOTALL作为re.complie()的第二个参数,就可以匹配所有字符串,包括换行字符

通常,正则表达式用你指定的大小写匹配文本,要想匹配时不区分大小写,可以向re.complie()中传入re.IGNORECASE或者re.I作为第二个参数

13,用sub方法替换字符串

sub()方法需要传入两个参数,第一个参数是要替换成的字符串,第二个为传入的字符串,用正则表示式匹配内容

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Soniubilibili

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值