第十章 正则表达式

1. 正则表达式语法

在处理字符串时,经常会有查找符合某些复杂规则的字符串的需求。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。

1.1 行定位符

行定位符就是用来描述字符串的边界,“^”表示行的开始,“$”表示行的结尾。如:

^tm

该表达式表示要匹配字符串tm的开始位置是行头,如“tm equal Tomorrow Moon”可以匹配,而 “Tomorrow Moon equal tm”则不匹配。但如果使用:

tm$

后者可以匹配而前者不能匹配。如果要匹配的字符串可以出现在字符串的任意部分,那么可以直接写成下面的格式,这样两个字符串就都可以匹配了。

tm

1.2 元字符

除了前面介绍的元字符“^”和“$”外,正则表达式里还有更多的元字符,例如下面的正则表达式中就应用了元字符“\b”和“\w”。

\bmr\w*\b

上面的正则表达式用于匹配以字母mr开头的单词,先从某个单词开始处(\b),然后匹配字母mr,接着是任意数量的字母或数字 (\w*),最后单词结束处(\b)。该表达式可以匹配“mrsoft”“\nmr”和“mr123456”等,但不能与“amr”匹配。

代码说明举例
.匹配除换行符以外的任意字符.可以匹配“mr\nM\tR”中的mrM\tR
\w匹配字母、数字、下划线或汉字\w可以匹配“m7r\n”中的“m、中、7r”,但不能匹配\n
\W匹配除字母、数字、下划线或汉字以外的字符\W可以匹配“m7r\n”中的\n,但不能匹配“m、中、7r
\s匹配单个的空白符(包括Tab键和换行符)\s可以匹配“mr\tMR”中的\t
\S除单个空白符(包括Tab键和换行符)以外的所有字符\S或以匹配“mr\tMR”中的mrMR
\b匹配单词的开始或结束,单词的分界符通常是空格,标点符号或者换行在“I like mr or am”字符串中,\bmmr中的m相匹配,但与am中的m不匹配
\d匹配数字\d可以与“m7ri”中的字符7匹配

1.3 限定符

在上面例子中,使用(\w*)匹配任意数量的字母或数字。如果想匹配特定数量的数字,该如何表示呢?正则表达式为我们提供了限定符(指定数量的字符)来实现该功能。如匹配8位QQ号可用如下表达式:

^\d{8}$
限定符说明举例
?匹配前面的字符零次或一次colou?r,该表达式可以匹配colourcolor
+匹配前面的字符一次或多次go+gle,该表达式可以匹配的范围从goglegoogle
*匹配前面的字符零次或多次go*gle,该表达式可以匹配的范围从gglegoogle
{n}匹配前面的字符ngo{2}gle,该表达式只匹配google
{n,}匹配前面的字符最少ngo{2,}gle,该表达式可以匹配的范围从googlegoogle
{n,m}匹配前面的字符最少n次,最多memploye{0,2},该表达式可以匹配employemployeemployee 3种情况

1.4 字符类

正则表达式查找数字和字母是很简单的,因为已经有了对应这些字符集合的元字符(如“\d”“\w”),但是如果要匹配没有预定义元字符的字符集合(比如元音字母 a, e, i, o, u ),应该怎么办?

很简单,只需要在方括号里列出它们就行了,像[aeiou]可以匹配任何一个英文元音字母,[.?!] 匹配标点符号(“.”“?”或“!”)。也可以轻松地指定一个字符范围,像“[0-9]”代表的含义与“\d”就是完全一致的:一位数字;同理,“[a-z0-9A-Z_]”完全等同于“\w”(如果只考虑英文的话)。

说明:要想匹配给定字符串中任意一个汉字,可以使用“[\u4e00-\u9fa5]”;如果要匹配连续多个汉字,可以使用“[\u4e00-\u9fa5]+”。

1.5 排除字符

现在反过来,匹配不符合指定字符集合的字符串。正则表达式提供了“^”字符。而这里将会放到方括号中,表示排除的意思。例如:

[^a-zA-Z]

该表达式用于匹配一个不是字母的字符。

1.6 选择字符

试想一下,如何匹配身份证号码?首先需要了解一下身份证号码的规则。身份证号码长度为15位或者18位。如果为15位时,则全为数字;如果为18位时,前17位为数字,最后一位是校验位,可能为数字或字符X。

在上面的描述中,包含着条件选择的逻辑,这就需要使用选择字符(|)来实现。该字符可以理解为“或”,匹配身份证的表达式可以写成如下方式:

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

该表达式的意思是以匹配15位数字,或者18位数字,或者17位数字和最后一位。最后一位可以是数字,也可以是X或者x。

1.7 转义字符

正则表达式中的转义字符(\)和Python中的大同小异,都是将特殊字符(如“.”“?”“\”等)变为普通的字符。举一个IP地址的实例,用正则表达式匹配诸如“127.0.0.1”格式的IP地址。如果直接使用点字符,格式为:

[1-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}

这显然不对,因为“.”可以匹配一个任意字符。这时,不仅是127.0.0.1这样的IP,连127101011这样的字符串也会被匹配出来。所以在使用“.”时,需要使用转义字符(\)。修改后上面的正则表达式格式为:

[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

说明:括号在正则表达式中也算是一个元字符。

1.8 分组

小括号字符的第一个作用就是可以改变限定符的作用范围,如“|”“*”“^”等。例如下面的表达式中包含小括号。

(six|four)th

这个表达式的意思是匹配单词sixth或fourth,如果不使用小括号,那么就变成了匹配单词six和fourth了。

小括号的第二个作用是分组,也就是子表达式。如(.[0-9]{1,3}){3},就是对分组(.[0-9]{1,3})进行重复操作。

1.9 在Python中使用正则表达式语法

在Python中使用正则表达式时,是将其作为模式字符串使用的。例如,将匹配不是字母的一个字符的正则表达式表示为模式字符串,可以使用下面的代码:

'[^a-zA-Z]'

而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串,则不能直接在其两侧添加引号定界符,例如,下面的代码是不正确的。

'\bm\w*\b'

而是需要将其中的“\”进行转义,转换后的结果为:

'\\bm\\w*\\b'

由于模式字符串中可能包括大量的特殊字符和反斜杠,所以需要写为原生字符串,即在模式字符串前加r或R。例如,上面的模式字符串采用原生字符串表示为:

r'\bm\w*\b'

说明:在编写模式字符串时,并不是所有的反斜杠都需要进行转换,例如,前面编写的正则表达式“^\d{8}$”中的反斜杠就不需要转义,因为其中的\d并没有特殊意义。

2. 匹配字符串

Python提供了re模块,用于实现正则表达式的操作。在实现时,可以使用re模块提供的方法(如search()、match()、findall()等)进行字符串处理,也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象,然后再使用该正则表达式对象的相关方法来操作字符串。

re模块在使用时,需要先应用import语句引入,具体代码如下:

import re

2.1 使用match()方法进行匹配

match()方法用于从字符串的开始处进行匹配,如果在起始位置匹配成功,则返回Match对象,否则返回None。其语法格式如下:

re.match(pattern, string, [flags])

参数说明:

  • pattern:表示模式字符串,由要匹配的正则表达式转换而来。

  • string:表示要匹配的字符串。

  • flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

标志说明
AASCII对于\w\W\b\B\d\D\s\S只进行ASCII匹配(仅适用于Python 3.x
IIGNORECASE执行不区分字母大小写的匹配
MMULTILINE^$用于包括整个字符串的开始和结尾的每一行(默认情况下,仅适用于整个字符串的开始和结尾处)
SDOTALL使用(.)字符匹配所有字符,包括换行符
XVERBOSE忽略模式字符串中未转义的空格和注释

例如,匹配字符串是否以“mr_”开头,不区分字母大小写,代码如下:

import re
pattern = r'mr_\w+'                        	# 模式字符串
string = 'MR_SHOP mr_shop'                  # 要匹配的字符串
match = re.match(pattern,string,re.I)      	# 匹配字符串,不区分大小写
print(match)                                # 输出匹配结果

string = '项目名称MR_SHOP mr_shop'
match = re.match(pattern,string,re.I)      	# 匹配字符串,不区分大小写
print(match)                                # 输出匹配结果

执行结果如下:

<_sre.SRE_Match object; span=(0, 7), match='MR_SHOP'>

None

从上面的执行结果中可以看出,字符串“MR_SHOP”以“mr_”开头,将返回一个Match对象,而字符串“项目名称MR_SHOP”没有以“mr_”开头,将返回“None”。这是因为match()方法从字符串的开始位置开始匹配,当第一个字母不符合条件时,则不再进行匹配,直接返回None。

Match对象中包含了匹配值的位置和匹配数据。其中,要获取匹配值的起始位置可以使用Match对象的start()方法;要获取匹配值的结束位置可以使用end()方法;通过span()方法可以返回匹配位置的元组;通过string属性可以获取要匹配的字符串。例如下面的代码:

import re

pattern = r'mr_\w+'                               	# 模式字符串
string = 'MR_SHOP mr_shop'                      	# 要匹配的字符串

match = re.match(pattern,string,re.I)          		# 匹配字符串,不区分大小写

print('匹配值的起始位置:',match.start())
print('匹配值的结束位置:',match.end())
print('匹配位置的元组:',match.span())
print('要匹配的字符串:',match.string)
print('匹配数据:',match.group())

2.2 使用search()方法进行匹配

search()方法用于在整个字符串中搜索第一个匹配的值,如果匹配成功,则返回Match对象,否则返回None。search()方法的语法格式如下:

re.search(pattern, string, [flags])

参数说明:

  • pattern:表示模式字符串,由要匹配的正则表达式转换而来。

  • string:表示要匹配的字符串。

  • flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

例如,搜索第一个以“mr_”开头的字符串,不区分字母大小写,代码如下:

import re

pattern = r'mr_\w+'                              	# 模式字符串

string = 'MR_SHOP mr_shop'                      	# 要匹配的字符串

match = re.search(pattern,string,re.I)          	# 搜索字符串,不区分大小写

print(match)                                      	# 输出匹配结果

string = '项目名称MR_SHOP mr_shop'

match = re.search(pattern,string,re.I)          	# 搜索字符串,不区分大小写

print(match)                                      	# 输出匹配结果

执行结果如下:

<_sre.SRE_Match object; span=(0, 7), match='MR_SHOP'>

<_sre.SRE_Match object; span=(4, 11), match='MR_SHOP'>

2.3 使用findall()方法进行匹配

findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串,并以列表的形式返回。如果匹配成功,则返回包含匹配结构的列表,否则返回空列表。findall()方法的语法格式如下:

re.findall(pattern, string, [flags])

参数说明:

  • pattern:表示模式字符串,由要匹配的正则表达式转换而来。

  • string:表示要匹配的字符串。

  • flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

例如,搜索以“mr_”开头的字符串,代码如下:

import re

pattern = r'mr_\w+'                            	# 模式字符串
string = 'MR_SHOP mr_shop'                    	# 要匹配的字符串
match = re.findall(pattern,string,re.I)      	# 搜索字符串,不区分大小写
print(match)                                  	# 输出匹配结果

string = '项目名称MR_SHOP mr_shop'
match = re.findall(pattern,string)            	# 搜索字符串,区分大小写
print(match)                                 	# 输出匹配结果

执行结果如下:

['MR_SHOP', 'mr_shop']
['mr_shop']

如果在指定的模式字符串中,包含分组,则返回与分组匹配的文本列表。例如,

import re

pattern = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'     	# 模式字符串
str1 = '127.0.0.1 192.168.1.66'               	# 要配置的字符串
match = re.findall(pattern,str1)              	# 进行模式匹配
print(match)

上面代码的执行结果如下:

['.1', '.66']

从上面的结果中可以看出,并没有得到匹配的IP地址,这是因为在模式字符串中出现了分组,所以得到的结果是根据分组进行匹配的结果,即“(.[0-9]{1,3})”匹配的结果。如果想获取整个模式字符串的匹配,可以将整个模式字符串使用一对小括号进行分组,然后在获取结果时,只取返回值列表的每个元素(是一个元组)的第1个元素。代码如下:

import re

pattern = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'         # 模式字符串
str1 = '127.0.0.1 192.168.1.66'                    # 要配置的字符串
match = re.findall(pattern,str1)                   # 进行模式匹配
for item in match:
    print(item[0])
    

执行结果如下:

127.0.0.1
192.168.1.66

3. 替换字符串

sub()方法用于实现字符串替换,语法格式如下:

re.sub(pattern, repl, string, count, flags)

参数说明:

  • pattern:表示模式字符串,由要匹配的正则表达式转换而来。

  • repl:表示替换的字符串。

  • string:表示要被查找替换的原始字符串。

  • count:可选参数,表示模式匹配后替换的最大次数,默认值为0,表示替换所有的匹配。

  • flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

例如,隐藏中奖信息中的手机号码,代码如下:

import re

pattern = r'1[34578]\d{9}'                           	# 定义要替换的模式字符串

string = '中奖号码为:84978981 联系电话为:13611111111'

result = re.sub(pattern,'1XXXXXXXXXX',string)      		# 替换字符串

print(result)

执行结果如下:

中奖号码为:84978981 联系电话为:1XXXXXXXXXX

4. 使用正则表达式分割字符串

split()方法用于实现根据正则表达式分割字符串,并以列表的形式返回。其作用同字符串对象的split()方法类似,所不同的就是分割字符由模式字符串指定。split()方法的语法格式如下:

re.split(pattern, string, [maxsplit], [flags])

参数说明:

  • pattern:表示模式字符串,由要匹配的正则表达式转换而来。

  • string:表示要匹配的字符串。

  • maxsplit:可选参数,表示最大的拆分次数。

  • flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

例如,从给定的URL地址中提取出请求地址和各个参数,代码如下:

import re
pattern = r'[?|&]'                         	# 定义分割符
url = 'http://www.mingrisoft.com/login.jsp?username="mr"&pwd="********"'
result = re.split(pattern,url)              # 分割字符串
print(result)

执行结果如下:

['http://www.mingrisoft.com/login.jsp', 'username="mr"', 'pwd="********"']
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值