第十章正则表达式

Zhao.Mr

已于 2023-06-20 00:11:31 修改

阅读量174

点赞数

分类专栏： Python 笔记（入门基础2）文章标签：正则表达式 python 开发语言

于 2023-03-28 17:16:25 首次发布

本文链接：https://blog.csdn.net/qq_42226855/article/details/129819076

版权

Python 笔记（入门基础2）专栏收录该内容

16 篇文章 1 订阅

订阅专栏

1. 正则表达式语法

在处理字符串时，经常会有查找符合某些复杂规则的字符串的需求。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

1.1 行定位符

行定位符就是用来描述字符串的边界，“^”表示行的开始，“$”表示行的结尾。如：

^tm

该表达式表示要匹配字符串tm的开始位置是行头，如“tm equal Tomorrow Moon”可以匹配，而 “Tomorrow Moon equal tm”则不匹配。但如果使用：

tm$

后者可以匹配而前者不能匹配。如果要匹配的字符串可以出现在字符串的任意部分，那么可以直接写成下面的格式，这样两个字符串就都可以匹配了。

tm

1.2 元字符

除了前面介绍的元字符“^”和“$”外，正则表达式里还有更多的元字符，例如下面的正则表达式中就应用了元字符“\b”和“\w”。

\bmr\w*\b

上面的正则表达式用于匹配以字母mr开头的单词，先从某个单词开始处（\b），然后匹配字母mr，接着是任意数量的字母或数字 (\w*)，最后单词结束处（\b）。该表达式可以匹配“mrsoft”“\nmr”和“mr123456”等，但不能与“amr”匹配。

代码	说明	举例
.	匹配除换行符以外的任意字符	.可以匹配“mr\nM\tR”中的m、r、M、\t、R
\w	匹配字母、数字、下划线或汉字	\w可以匹配“m中7r\n”中的“m、中、7、r”，但不能匹配\n
\W	匹配除字母、数字、下划线或汉字以外的字符	\W可以匹配“m中7r\n”中的\n，但不能匹配“m、中、7、r”
\s	匹配单个的空白符（包括Tab键和换行符）	\s可以匹配“mr\tMR”中的\t
\S	除单个空白符（包括Tab键和换行符）以外的所有字符	\S或以匹配“mr\tMR”中的m、r、M、R
\b	匹配单词的开始或结束，单词的分界符通常是空格，标点符号或者换行	在“I like mr or am”字符串中，\bm与mr中的m相匹配，但与am中的m不匹配
\d	匹配数字	\d可以与“m7ri”中的字符7匹配

1.3 限定符

在上面例子中，使用(\w*)匹配任意数量的字母或数字。如果想匹配特定数量的数字，该如何表示呢？正则表达式为我们提供了限定符（指定数量的字符）来实现该功能。如匹配8位QQ号可用如下表达式：

^\d{8}$

限定符	说明	举例
?	匹配前面的字符零次或一次	colou?r，该表达式可以匹配colour和color
+	匹配前面的字符一次或多次	go+gle，该表达式可以匹配的范围从gogle到goo…gle
*	匹配前面的字符零次或多次	go*gle，该表达式可以匹配的范围从ggle到goo…gle
{n}	匹配前面的字符n次	go{2}gle，该表达式只匹配google
{n,}	匹配前面的字符最少n次	go{2,}gle，该表达式可以匹配的范围从google到goo…gle
{n,m}	匹配前面的字符最少n次，最多m次	employe{0,2}，该表达式可以匹配employ、employe和employee 3种情况

1.4 字符类

正则表达式查找数字和字母是很简单的，因为已经有了对应这些字符集合的元字符（如“\d”“\w”），但是如果要匹配没有预定义元字符的字符集合(比如元音字母 a, e, i, o, u )，应该怎么办？

很简单，只需要在方括号里列出它们就行了，像[aeiou]可以匹配任何一个英文元音字母，[.?!] 匹配标点符号(“.”“?”或“!”)。也可以轻松地指定一个字符范围，像“[0-9]”代表的含义与“\d”就是完全一致的：一位数字；同理，“[a-z0-9A-Z_]”完全等同于“\w”（如果只考虑英文的话）。

说明：要想匹配给定字符串中任意一个汉字，可以使用“[\u4e00-\u9fa5]”；如果要匹配连续多个汉字，可以使用“[\u4e00-\u9fa5]+”。

1.5 排除字符

现在反过来，匹配不符合指定字符集合的字符串。正则表达式提供了“^”字符。而这里将会放到方括号中，表示排除的意思。例如：

[^a-zA-Z]

该表达式用于匹配一个不是字母的字符。

1.6 选择字符

试想一下，如何匹配身份证号码？首先需要了解一下身份证号码的规则。身份证号码长度为15位或者18位。如果为15位时，则全为数字；如果为18位时，前17位为数字，最后一位是校验位，可能为数字或字符X。

在上面的描述中，包含着条件选择的逻辑，这就需要使用选择字符（|）来实现。该字符可以理解为“或”，匹配身份证的表达式可以写成如下方式：

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

该表达式的意思是以匹配15位数字，或者18位数字，或者17位数字和最后一位。最后一位可以是数字，也可以是X或者x。

1.7 转义字符

正则表达式中的转义字符（\）和Python中的大同小异，都是将特殊字符（如“.”“?”“\”等）变为普通的字符。举一个IP地址的实例，用正则表达式匹配诸如“127.0.0.1”格式的IP地址。如果直接使用点字符，格式为：

[1-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}

这显然不对，因为“.”可以匹配一个任意字符。这时，不仅是127.0.0.1这样的IP，连127101011这样的字符串也会被匹配出来。所以在使用“.”时，需要使用转义字符（\）。修改后上面的正则表达式格式为：

[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

说明：括号在正则表达式中也算是一个元字符。

1.8 分组

小括号字符的第一个作用就是可以改变限定符的作用范围，如“|”“*”“^”等。例如下面的表达式中包含小括号。

(six|four)th

这个表达式的意思是匹配单词sixth或fourth，如果不使用小括号，那么就变成了匹配单词six和fourth了。

小括号的第二个作用是分组，也就是子表达式。如(.[0-9]{1,3}){3}，就是对分组(.[0-9]{1,3})进行重复操作。

1.9 在Python中使用正则表达式语法

在Python中使用正则表达式时，是将其作为模式字符串使用的。例如，将匹配不是字母的一个字符的正则表达式表示为模式字符串，可以使用下面的代码：

'[^a-zA-Z]'

而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串，则不能直接在其两侧添加引号定界符，例如，下面的代码是不正确的。

'\bm\w*\b'

而是需要将其中的“\”进行转义，转换后的结果为：

'\\bm\\w*\\b'

由于模式字符串中可能包括大量的特殊字符和反斜杠，所以需要写为原生字符串，即在模式字符串前加r或R。例如，上面的模式字符串采用原生字符串表示为：

r'\bm\w*\b'

说明：在编写模式字符串时，并不是所有的反斜杠都需要进行转换，例如，前面编写的正则表达式“^\d{8}$”中的反斜杠就不需要转义，因为其中的\d并没有特殊意义。

2. 匹配字符串

Python提供了re模块，用于实现正则表达式的操作。在实现时，可以使用re模块提供的方法（如search()、match()、findall()等）进行字符串处理，也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象，然后再使用该正则表达式对象的相关方法来操作字符串。

re模块在使用时，需要先应用import语句引入，具体代码如下：

import re

2.1 使用match()方法进行匹配

match()方法用于从字符串的开始处进行匹配，如果在起始位置匹配成功，则返回Match对象，否则返回None。其语法格式如下：

re.match(pattern, string, [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

标志	说明
A或ASCII	对于\w、\W、\b、\B、\d、\D、\s和\S只进行ASCII匹配（仅适用于Python 3.x）
I或IGNORECASE	执行不区分字母大小写的匹配
M或MULTILINE	将^和$用于包括整个字符串的开始和结尾的每一行（默认情况下，仅适用于整个字符串的开始和结尾处）
S或DOTALL	使用（.）字符匹配所有字符，包括换行符
X或VERBOSE	忽略模式字符串中未转义的空格和注释

例如，匹配字符串是否以“mr_”开头，不区分字母大小写，代码如下：

import re
pattern = r'mr_\w+'                        	# 模式字符串
string = 'MR_SHOP mr_shop'                  # 要匹配的字符串
match = re.match(pattern,string,re.I)      	# 匹配字符串，不区分大小写
print(match)                                # 输出匹配结果

string = '项目名称MR_SHOP mr_shop'
match = re.match(pattern,string,re.I)      	# 匹配字符串，不区分大小写
print(match)                                # 输出匹配结果

执行结果如下：

<_sre.SRE_Match object; span=(0, 7), match='MR_SHOP'>

None

从上面的执行结果中可以看出，字符串“MR_SHOP”以“mr_”开头，将返回一个Match对象，而字符串“项目名称MR_SHOP”没有以“mr_”开头，将返回“None”。这是因为match()方法从字符串的开始位置开始匹配，当第一个字母不符合条件时，则不再进行匹配，直接返回None。

Match对象中包含了匹配值的位置和匹配数据。其中，要获取匹配值的起始位置可以使用Match对象的start()方法；要获取匹配值的结束位置可以使用end()方法；通过span()方法可以返回匹配位置的元组；通过string属性可以获取要匹配的字符串。例如下面的代码：

import re

pattern = r'mr_\w+'                               	# 模式字符串
string = 'MR_SHOP mr_shop'                      	# 要匹配的字符串

match = re.match(pattern,string,re.I)          		# 匹配字符串，不区分大小写

print('匹配值的起始位置：',match.start())
print('匹配值的结束位置：',match.end())
print('匹配位置的元组：',match.span())
print('要匹配的字符串：',match.string)
print('匹配数据：',match.group())

2.2 使用search()方法进行匹配

search()方法用于在整个字符串中搜索第一个匹配的值，如果匹配成功，则返回Match对象，否则返回None。search()方法的语法格式如下：

re.search(pattern, string, [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，搜索第一个以“mr_”开头的字符串，不区分字母大小写，代码如下：

import re

pattern = r'mr_\w+'                              	# 模式字符串

string = 'MR_SHOP mr_shop'                      	# 要匹配的字符串

match = re.search(pattern,string,re.I)          	# 搜索字符串，不区分大小写

print(match)                                      	# 输出匹配结果

string = '项目名称MR_SHOP mr_shop'

match = re.search(pattern,string,re.I)          	# 搜索字符串，不区分大小写

print(match)                                      	# 输出匹配结果

执行结果如下：

<_sre.SRE_Match object; span=(0, 7), match='MR_SHOP'>

<_sre.SRE_Match object; span=(4, 11), match='MR_SHOP'>

2.3 使用findall()方法进行匹配

findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串，并以列表的形式返回。如果匹配成功，则返回包含匹配结构的列表，否则返回空列表。findall()方法的语法格式如下：

re.findall(pattern, string, [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，搜索以“mr_”开头的字符串，代码如下：

import re

pattern = r'mr_\w+'                            	# 模式字符串
string = 'MR_SHOP mr_shop'                    	# 要匹配的字符串
match = re.findall(pattern,string,re.I)      	# 搜索字符串，不区分大小写
print(match)                                  	# 输出匹配结果

string = '项目名称MR_SHOP mr_shop'
match = re.findall(pattern,string)            	# 搜索字符串，区分大小写
print(match)                                 	# 输出匹配结果

执行结果如下：

['MR_SHOP', 'mr_shop']
['mr_shop']

如果在指定的模式字符串中，包含分组，则返回与分组匹配的文本列表。例如，

import re

pattern = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'     	# 模式字符串
str1 = '127.0.0.1 192.168.1.66'               	# 要配置的字符串
match = re.findall(pattern,str1)              	# 进行模式匹配
print(match)

上面代码的执行结果如下：

['.1', '.66']

从上面的结果中可以看出，并没有得到匹配的IP地址，这是因为在模式字符串中出现了分组，所以得到的结果是根据分组进行匹配的结果，即“(.[0-9]{1,3})”匹配的结果。如果想获取整个模式字符串的匹配，可以将整个模式字符串使用一对小括号进行分组，然后在获取结果时，只取返回值列表的每个元素（是一个元组）的第1个元素。代码如下：

import re

pattern = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'         # 模式字符串
str1 = '127.0.0.1 192.168.1.66'                    # 要配置的字符串
match = re.findall(pattern,str1)                   # 进行模式匹配
for item in match:
    print(item[0])

执行结果如下：

127.0.0.1
192.168.1.66

3. 替换字符串

sub()方法用于实现字符串替换，语法格式如下：

re.sub(pattern, repl, string, count, flags)

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
repl：表示替换的字符串。
string：表示要被查找替换的原始字符串。
count：可选参数，表示模式匹配后替换的最大次数，默认值为0，表示替换所有的匹配。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，隐藏中奖信息中的手机号码，代码如下：

import re

pattern = r'1[34578]\d{9}'                           	# 定义要替换的模式字符串

string = '中奖号码为：84978981 联系电话为：13611111111'

result = re.sub(pattern,'1XXXXXXXXXX',string)      		# 替换字符串

print(result)

执行结果如下：

中奖号码为：84978981 联系电话为：1XXXXXXXXXX

4. 使用正则表达式分割字符串

split()方法用于实现根据正则表达式分割字符串，并以列表的形式返回。其作用同字符串对象的split()方法类似，所不同的就是分割字符由模式字符串指定。split()方法的语法格式如下：

re.split(pattern, string, [maxsplit], [flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。
string：表示要匹配的字符串。
maxsplit：可选参数，表示最大的拆分次数。
flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

例如，从给定的URL地址中提取出请求地址和各个参数，代码如下：

import re
pattern = r'[?|&]'                         	# 定义分割符
url = 'http://www.mingrisoft.com/login.jsp?username="mr"&pwd="********"'
result = re.split(pattern,url)              # 分割字符串
print(result)

执行结果如下：

['http://www.mingrisoft.com/login.jsp', 'username="mr"', 'pwd="********"']

Zhao.Mr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第十章正则表达式

在处理字符串时，经常会有查找符合某些复杂规则的字符串的需求。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。
复制链接

扫一扫

专栏目录

第十章 正则表达式

1. 正则表达式语法

1.1 行定位符

1.2 元字符

1.3 限定符

1.4 字符类

1.5 排除字符

1.6 选择字符

1.7 转义字符

1.8 分组

1.9 在Python中使用正则表达式语法

2. 匹配字符串

2.1 使用match()方法进行匹配

2.2 使用search()方法进行匹配

2.3 使用findall()方法进行匹配

3. 替换字符串

4. 使用正则表达式分割字符串

第十章正则表达式