正则表达式的各种方法

最新推荐文章于 2024-04-12 14:26:02 发布

Soniubilibili

最新推荐文章于 2024-04-12 14:26:02 发布

阅读量145

点赞数 1

分类专栏： python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/Soniubilibili/article/details/109056747

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

所有内容均参考python变成快速上手一书

python的所有正则表达式都在re模块中。

向re.compile（）传入一个字符串，表示正则表达式，它将返回一个Regex模式对象

1：匹配Regex对象

h1 = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = h1.search('my phone is 415-555-4242')
print(mo.group())


输出结果:
415-555-4242

注意：python的转义符为反斜杠'\'，字符串’\n‘表示一个换行符，要想打印’\‘，需要在'\'前再加上一个反斜杠，即'\\'

2：利用括号分组

h1 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = h1.search('my phone is 415-555-4242')
print(mo.group(1))
print(mo.group(2))
print(mo.group(0))
print(mo.group())


输出结果:
415
555-4242
415-555-4242
415-555-4242

3：利用管道分组

字符|被称为管道。希望匹配多个表达式中的一个，若多个表达式均出现，则第一个被匹配的作为返回对象（可以用findall()方法找到所有匹配对象）

h1 = re.compile(r'tom|tim|jim')
mo = h1.search('tim is tom')
print(mo.group())

输出：
tim

4.用问好实现可选匹配

字符？表明他前面的分组在这个模式中是可选的（可存在可不存在）(可以理解为匹配这个问号之前的元组零次或者一次)

h1 = re.compile(r'tom(tim)?jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
print(mo.group())
print(mo1.group())

输出：
timtom
tomtimjim

5.用号匹配零次或者多次*

*号表示“匹配零次或者多次”，即在*号之前的元组可以出现任意次。（如果想匹配真正的*号需要在*号前加上反斜杠\）

h1 = re.compile(r'tom(tim)*jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
mo2 = h1.search('tomtimtimtimtimjim')
print(mo.group())
print(mo1.group())
print(mo2.group())

输出：
timtom
tomtimjim
tomtimtimtimtimjim

6.用加号匹配一次或者多次

+号意味着”匹配一次或者多次“，与*号不同的是+号前面的元组必须出现至少一次

h1 = re.compile(r'tom(tim)+jim')
mo = h1.search('tomjimm')
mo1 = h1.search('tomtimjim')
mo2 = h1.search('tomtimtimtimtimjim')
print(mo.group())
print(mo1.group())
print(mo2.group())

输出：
报错
tomtimjim
tomtimtimtimtimjim

7.用花括号匹配特定次数

{}中的参数可以为一个数字，{n}：表示出现n次；也可以有多个数字{n，m}：表示可以出现在这个范围中均可以，即[n,m]，当参数n不传入时，表示[0,m],即0到m次，当参数m不传入时，表示[n,无穷],即至少出现n次。

注意：此时涉及到贪心和非贪心匹配，因为{3，5}表示出现3，4，5次，这时候会匹配哪一个？python的默认正则表达式时”贪心“的，这表示在同时存在多个时，会优先匹配最长的字符串，”非贪心“匹配最短的字符串，即在花括号最后面加上？号

h1 = re.compile(r'A{3，5}')
mo1 = h1.search('AAAAA')
print(mo.group())

h2 = re.compile(r'A{3，5}？')
mo2 = h2.search('AAAAA')
print(mo2.group())

输出：
AAAAA
AAA

8，findall()方法

除了search（）方法，还有一个findall()方法。search()方法是返回一个对象，即第一次匹配的文本，而findall()方法返回一组字符串，包含所有被匹配的文本。findall（）返回的是一个字符串列表，如果正则表达式中有分组，则findall（）返回元组的列表

h1 = re.compile(r'\d\d-\d')
mo1 = h1.search('my m:11-2,you m:22-3')
print(mo.group())

输出：
11-2



h1 = re.compile(r'\d\d-\d')
h1.findall('my m:11-2,you m:22-3')

输出：
['11-2'，'22-3']


h1 = re.compile(r'(\d\d)-(\d)')
h1.findall('my m:11-2,you m:22-3')

输出：
[('11','2')，('22','3')]

9，字符分类

前面的例子可以知道\d表示任何数字，即0~9。

\d 0到9的任何数字

\D 除了0到9的任何字符

\w 任何字母，数字或者下划线字符（可以认为是匹配”单词“字符）

\W 除字母，数字和下划线以外的任意字符

\s 空格，制表符或者换行符（可以认为匹配”空白“字符）

\S 除空格，制表符和换行符以外的任意字符

10，建立自己的字符分类

有时候匹配一段字符串，而字符分类太过广泛，可以用方括号定义自己的字符分类。也可以用横线-表示字母或者数字的范围（a-zA-Z0-9将匹配所有小写字母，大写字母和数字）在方括号内的正则表达式不会被解释，意味着不用在前面加上反斜杠转义，例如匹配0到5和一个句点.此时就不需要将它写成[0-5\.]；通过在方括号的开头加上一个插入字符^，就可以得到不在这个字符类中的字符。

h1 = re.compile(r'[abcdefg]')
h1.findall('aabbkzggd')

输出：
['a','a','b','b','g','g','d']


h1 = re.compile(r'[^abcdefg]')
h1.findall('aabbkzggd')
输出：
['k','z']

11,插入字符和美元符号

在正则表达式的开始处加上一个插入字符^，表明匹配必须发生在被查找文本的开始处。类似的，在末尾加上美元符号$，表示必须以这个正则表达式的模式结束，这两个字符也可以同时使用，表明该字符串必须匹配该模式，也就是说，只匹配该字符串的一个子类是不行的。

h1 = re.compile(r'^hello')
h1.search('hello')
输出：
<re.Match object; span=(0, 5), match='hello'>

h1 = re.compile(r'^hello')
h1.search('hell') == None
输出：True

12，通配字符，用点-星匹配所有字符，用句点字符匹配换行符，不区分大小写的匹配

通配字符.(句点)可以匹配除了换行符之外的所有字符（句点字符只匹配一个字符）

要想匹配所有字符串，则可以使用re.complie(r'.*?')（可以自行选择使用贪心或者非贪心模式）

点-星将匹配除换行符外的所有字符，通过传入re.DOTALL作为re.complie()的第二个参数，就可以匹配所有字符串，包括换行字符

通常，正则表达式用你指定的大小写匹配文本，要想匹配时不区分大小写，可以向re.complie（）中传入re.IGNORECASE或者re.I作为第二个参数

13，用sub方法替换字符串

sub（）方法需要传入两个参数，第一个参数是要替换成的字符串，第二个为传入的字符串，用正则表示式匹配内容

Soniubilibili

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
正则表达式的各种方法

python的所有正则表达式都在re模块中。向re.compile（）传入一个字符串，表示正则表达式，它将返回一个Regex模式对象1：匹配Regex对象h1 = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')mo = h1.search('my phone is 415-555-4242')print(mo.group())输出结果:415-555-4242注意：python的转义符为反斜杠'\'，字符串’\n‘表示一个换行符，要想打印’\‘，需要
复制链接

扫一扫