re库:Python中正则表达式的处理与应用

前言

re库就是我们常说的正则表达式库,它是用一种形式化语法来描述的文本匹配模式。通过该库,我们可以匹配特定字符串中的一些内容,比如爬取网页内容时,我们可以通过re库获取网页内容中的所有标签内容。

本篇将详细讲解re库的使用规则。

查找文本

比如,在一串字符串文本中,我们需要查找一个子字符串是否在该字符串中,并返回其具体的位置索引,该怎么做呢?

import re

content = "My name is Li Yuanjing"
pattern = "name"
match = re.search(pattern, content)
print(match.start())
print(match.end())

运行之后,效果如下:
搜索

这里,我们通过re.search()函数查找字符串pattern是否在content字符串中。可以看到,其返回了pattern字符串在content字符串的开始索引与结束索引位置。

多重匹配

不过,在平常的项目中,往往并不是仅仅只有一个匹配结果,可能有时候会有多个匹配结果出现。这个时候,我们需要使用re.findall()函数实现多重匹配。

import re

content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.findall(pattern, content):
    print(match)

运行之后,效果如下:
多重匹配

这里,我们匹配了11个。不过这里是返回的match字符串,并不是和上面一个返回的一个Match示例,我现在想要获取所有多重匹配结果的索引位置怎么办?

import re

content = "asasssasasasaaasasasasssasasa"
pattern = "sa"
for match in re.finditer(pattern, content):
    print(match.start(),match.end())

运行之后,效果如下:
 多重匹配2

使用re.finditer()函数返回的是一个迭代器,它会生成Match实例。

元字符(锚定码)

像上面的的一个字符串,里面有多个子字符串,通过匹配肯定会返回多个结果。现在,我们有一个需求,不管字符串里面有多个匹配结果,我们只需要第一个怎么操作呢?

当然,这里我们还是可以如上面代码一样先找到所有,再取第一个就行。但其实我们可以通过元字符一步就达成。首先,我们先来看看元字符有哪些?

元字符含义
.表示匹配任意一个字符(除了换行符)
^表示从字符串开头开始匹配
$表示从字符串末尾开始匹配
*表示匹配某个字符匹配0到无穷次
+表示匹配某个字符匹配1到无穷次
表示匹配某个字符匹配0或1次
{}表示匹配某个字符匹配任意次
[]为或的意思,匹配其中任一项,其中里边除了 - \和^没有特殊符号
\A字符串开头
\Z字符串末尾
\b单词开头或末尾的空串
\B不在单词开头或末尾的空串

下面,我们来实现从末尾匹配,只匹配一个结果。具体代码如下所示:

import re

content = "name123name321name213name321name123"
print(len(content))
for match in re.finditer("123$", content):
    print(match.start(), match.end())

print(re.findall("name*", content))
print(re.findall("name+", content))
print(re.findall("name?", content))
print(re.findall("name{5}", content))
print(re.findall("name{1,5}", content))
print(re.findall("name[12]", content))

运行之后,效果如下:
元字符

转义码

除了元字符之外,我们还可以通过转义码匹配特定的字符,比如上面的元字符只能匹配后面有多少个字符,并不能区分数字或者字母等其他的内容。下面,我们来看看正则表达式中常用的转义码。

转义码含义
\d匹配数字
\D匹配非数字
\s匹配空白符(制表符,空格,换行等)
\S匹配非空白符
\w字母数字
\W非字母数字

这里,我们来分别匹配看看效果,具体代码如下所示:

import re

content = "name 123"
print(re.findall("\d", content))
print(re.findall("\D", content))
print(re.findall("\s", content))
print(re.findall("\S", content))
print(re.findall("\w", content))
print(re.findall("\W", content))
#结合前面元字符,可以实现贪婪匹配
print(re.findall("\w*", content))

运行之后,效果如下:
转义码

fullmatch()

在有些时候,我们并不是需要在字符串中找到某些规则的子集。而是判断某些字符串是否是邮箱,或者是电话等。这个时候,就需要整个字符串与模式匹配,re库提供了fullmatch()函数用于整个模式的匹配。

import re

content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
s = re.fullmatch(pattern, content)
if s is None:
    print("字符串不是邮箱")
else:
    print("字符串是邮箱")

编译表达式

虽然说,通过上面的方式进行re库的使用可以完成字符串的匹配,但是对于程序频繁使用的表达式而言,编译它们会更加的高效。compile()函数就可以把一个表达式字符串转换为RegexObject使用。具体代码如下:

import re

content = "liyuanjinglyj@163.com"
pattern = "^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"
regex = re.compile(pattern)
s = regex.search(content)
print(s[0])

组解析匹配

在上面的邮箱匹配中,我们可以用编译表达式判断邮箱字符串是否完全匹配。不过,现在假如我们有一个更大的需求,就是获取邮箱的域名,用户名。很显然上面的知识只能匹配整个字符串,或者分别创建两个pattern进行匹配。

这样往往非常耗时,还增加了代码的冗余程度。所以,我们需要掌握re库的组解析匹配。具体代码如下:

import re

content = "liyuanjinglyj@163.com"
pattern = "^([A-Za-z0-9\u4e00-\u9fa5]+)@([a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+)$"
regex = re.compile(pattern)
match = regex.search(content)
print(match.groups())
print("邮箱的用户名:", match.group(1))
print("邮箱的域名为:", match.group(2))

运行之后,效果如下:
组解析匹配

可以看到,组匹配其实就是将匹配的规则字符串用“()”设定为一组。不过,需要注意的是,这里match.gourps(0)并不是上面显示的第一个字符串“liyuanjinglyj”,而是完整的字符串结果"liyuanjinglyj@163.com"。简而言之,match.gourps(0)是所有匹配的字符串,从match.gourps(1)开始才是用()分组的解析内容。

搜索选项

大小写无关匹配

通过上面的学习我们都知道了,只要在pattern中输入除规则用到的字符外,那么肯定就需要匹配这个字符,但其实re.compile()函数还有一个参数,设置该参数可以忽略掉一定的规则。比如,在pattern中输入大写的字母“T”,那么肯定的小写就不会匹配,但是博主就像匹配大写与小写,怎么办?

用前文的知识,我们可以用"[]"或进行操作。但学习了re.compile()函数的另一个参数,我们只需要设置该参数就行,具体代码如下:

import re

content = "This text"
pattern = r"T\w+"
regex = re.compile(pattern, re.IGNORECASE)
match = regex.findall(content)
print(match)

运行之后,效果如下:
效果

感兴趣的可以删除re.IGNORECASE参数,看看是不是只有This。

其他匹配规则

除了大小写匹配之外,还有re.compile()函数还提供了其他参数。如下表所示:

参数含义
re.IGNORECASE(re.I)忽略大小写匹配
re.MULTILINE(re.M)多行匹配(比如有末尾符号"$",它就会匹配每一行的末尾)
re.ASCII(re.A)让\w,\W,\b,\B,\d,\D,\s和\S 执行ASCII-只匹配完整的Unicode匹配代替。这仅对Unicode模式有意义,而对于字节模式则忽略。
re.DOTALL(re.S)使’.‘特殊字符与任何字符都匹配,包括换行符;没有此标志,’.'将匹配除换行符以外的任何内容。
re.VERBOSE(re.X)注释会被忽略(比如为了让字符串可读性更高,程序员可以在字符串中标记注释,使用该参数可以忽略这些注释进行匹配,注释的规则与python代码注释一样)

前后向断言

在网页爬虫中,假如我们需要匹配链接的标签,往往都是成对的出现才会进行匹配。所以,这个时候只有两个尖括号都出现或者都不出现时表达式才能匹配。

前向断言语法为:(?=pattern)

import re

contents = [
"aaa <a href='www.baidu.com'/>",
"a href='www.baidu.com'/",
"bbb <a href='www.baidu.com'/>",
"ccc <a href='www.baidu.com'",
]
pattern = r"(?=<).*(?<=>)"
for content in contents:
    regex = re.compile(pattern)
    match = regex.findall(content)
    print(match)

运行之后,效果如下:
前向断言
当然,前向断言还给我们提供了前向否定断言,其语法为(?!pattern)。代码如下:

import re

contents = [
"<a href='www.baidu.com'/>",
"a href='www.baidu.com'/",
"<a href='www.baidu.com'/>",
"ccc <a href='www.baidu.com'",
]
pattern = r"(?!<).*(?<!>)"
for content in contents:
    regex = re.compile(pattern)
    match = regex.findall(content)
    print(match)

运行之后,效果如下:
否定断言

这样就不需要匹配前后<>了。常用的断言如下表所示:

断言语法含义
(?=pattern )后向断言。仅当子表达式 X 在 此位置的右侧匹配时才继续匹配。例如,/w+(?=/d) 与后跟数字的单词匹配,而不与该数字匹配。此构造不会回溯。
(?!pattern )后向否定断言。仅当子表达式 X 不在 此位置的右侧匹配时才继续匹配。例如,例如,/w+(?!/d) 与后不跟数字的单词匹配,而不与该数字匹配 。
(?<=pattern )前向断言。仅当子表达式 X 在 此位置的左侧匹配时才继续匹配。例如,(?<=19)99 与跟在 19 后面的 99 的实例匹配。此构造不会回溯。
(?<!pattern )前向否定断言。仅当子表达式 X 不在此位置的左侧匹配时才继续匹配。例如,(?<!19)99 与不跟在 19 后面的 99 的实例匹配

自引用表达式

在前面,我们学习了分组的知识,但假如有两个分组完全一样,我们还写两遍不成?所以,正则表达式给我们提供了自引用表达式,让我们使用\num编号引用前面的表达式。示例如下:

import re

content = "123.123.123.123"
pattern = r"(\d{1,3})(.\1){3}"
regex = re.compile(pattern)
match = regex.findall(content)
print(match)

运行之后,输出如下:
输出结果

需要注意博主前面的提示,“两个分组完全一样”,不仅正则表达式一样,连内容也一样。才能使用自引用表达式,不然,仅仅只是正则表达式一样,内容不一样,也不会匹配。因为自引用表达式引用的是前面正则表达式匹配的内容,并不是引用的正则表达式。这一点需要额外注意,如果需要匹配完全相同的表达式,就需要使用前后断言进行处理。

sub(模式修改字符串)

在实际的文本处理中,我们有时候是提取符合条件的数据,有时候只是修改数据。如果修改数据,就需要用到sub()函数将一个模式的所有出现替换成另一个字符串。示例如下:

import re

content = "**blod** **li**"
pattern = r"\*{2}(.*?)\*{2}"
regex = re.compile(pattern)
match = regex.sub(r'<b>\1<b>',content)
print(match)

运行之后,效果如下:
模式替换

这样,我们就给字符串替换了标签。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李元静

您的鼓励就是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值