Python正则表达式

最新推荐文章于 2022-07-06 07:23:01 发布

stdcoutzrh

最新推荐文章于 2022-07-06 07:23:01 发布

阅读量436

点赞数

本文链接：https://blog.csdn.net/PecoHe/article/details/90174605

版权

Python正则表达式

15.1 从re模块开始

正则表达式可以对指定的字符串与模式之间执行模式匹配。模式可以是普通的字符串，也可以是含有特殊意义字符的字符串。通过正则表达式，我们可以进行查找，校验等用途。在Python中，我们可以使用re模块来实现正则表达式的模式匹配操作。现在，我们就从最简单的，模式为普通文本字符开始。

模式为普通文本字符，指正则表达式的模式中不含有特殊字符，完全是按照字符本身的内容进行匹配的，这种情况下，实际上就是判断带匹配的文本是否包含模式，与判断子串是否出现在某个主串的含义相同。

第一个正则表达式程序。

模式与待搜索的字符串除了可以是str类型，也可以是bytes类型，但是，二者类型必须一致，不能混淆，否则会产生错误。例如，以下两行代码都是非法的：

re.search(b"cd", "abcdefg")
re.search("cd", b"abcdefg")

疑问：正则表达式的匹配怎么就像是str的in操作呢？

15.2 特殊字符

15.2.1 字符相关

下表中的字符内容可以匹配单个字符。

字符	说明
.	默认模式下，匹配除换行符（\n）之外的所有单个字符。在S（DOTALL）模式下，匹配所有单个字符。
[字符]	匹配[]内的任意一个字符。[]中可以是单个字符，如[x9k]，也可以是一个字符区间，如[a-k]，[3-5]。如果需要匹配“-”，可以使用“-”转义，或者将该字符置于[]的两端，如[-axk]或[axk-]。如果需要匹配“]”，可以使用“]”转义，或者将该字符置于[]的最前端，如[]axk]。
[^字符]	匹配不在[]内的任意一个字符，[]的取反匹配。
\d	如果是str类型，匹配Unicode十进制数字，这包括但不限于0 ~ 9，例如０，٧等字符，也能够匹配成功。如果是bytes类型，匹配[0-9]。
\D	匹配非Unicode数字字符，\d的取反匹配。
\s	如果是str类型，匹配Unicode空白符，这包括但不限于[空格\t\v\r\n\f]。如果是bytes类型，匹配[空格\t\v\r\n\f]。
\S	匹配非Unicode空白字符，\s的取反匹配。
\w	如果是str类型，匹配Unicode单词字符，这包括但不限于[a-zA-Z0-9_]。如果是bytes类型，则匹配[a-zA-Z0-9_]。
\W	匹配非Unicode单词字符，\w的取反匹配。
\	转义字符，对正则表达式的特殊字符进行转义，例如，如果要匹配普通的“.”字符，则可以使用“.”。

说明：
\ 在Python中是转义的开始，在正则表达式中也是转义的开始，因此，建议模式使用原始字符串，这样可以减少转义的繁琐性。

15.2.2 次数相关

字符	说明
*	匹配前面的字符0次或多次。
+	匹配前面的字符1次或多次。
?	匹配前面的字符0次或1次。
{m}	匹配前面的字符m次。
{m,}	匹配前面的字符至少m次。
{,n}	匹配前面的字符至多n次。
{m,n}	匹配前面的字符m到n次。
X?	X表示以上的任意一种模式（{m}除外），即在对应的模式字符串后面加上一个问号?，表示该模式的非贪婪模式（否则为贪婪模式）。贪婪模式与非贪婪模式的区别在于：贪婪模式会尽可能匹配最多的字符，而非贪婪模式会尽可能匹配最少的字符。

15.2.3 边界相关

字符	说明
^	匹配字符串的开头。在多行模式下，可以匹配每一行的开头。
$	匹配字符串的结尾。在多行模式下，可以匹配每一行的末尾。
\A	仅匹配字符串的开头。
\Z	仅匹配字符串的末尾。
\b	匹配单词的边界。单词可以含有Unicode字符、数字与下划线组成（\w+匹配的内容）。\b匹配的是空串，该空串可以出现在\w（\W）与\W（\w）之间、字符串开头与\w之间或\w与字符串结尾之间。
\B	匹配单词的非边界。\B匹配的是空串，该空串必须出现在两个\w之间。\B是\b的取反匹配。

15.2.4 组相关

字符	说明
()	对()内的字符进行分组。分组后，该组匹配的内容可以单独提取，同时，也可以在模式字符串后面使用\number进行引用。
\number	number用来指定组序号，序号从1开始。用来匹配number对应的分组内容。
(?:表达式)	匹配()内的字符，但是不会进行分组。()内匹配的内容也无法单独提取，或者在后面使用\number引用。
(?P表达式)	对()内的字符进行分组，组名为name，多个组之间的名称不能重复。分组后，该组匹配的内容可以单独提取，同时，也可以在模式字符串后面使用(?P=name)或\number进行引用。对比之前()进行的序号分组，此种方式可以称为命名分组。不过，命名分组依然也可以使用序号（\number）进行引用。
(?P=name)	用来匹配同名的分组内容【之前使用(?P)进行的分组】。
l	用来连接两个并列的模式字符串，匹配其中的一个即可。

15.2.5 控制标记

正则表达式的第三个参数flag的使用。（3.6后，使用RegexFlag对象）

I(IGNORECASE)
M(MULTILINE)
S(DOTALL)

15.3 相关属性与方法

15.3.1 re模块的函数

re.compile()
re.search()
re.match()
re.findall()
re.finditer()
re.split()
re.sub()

15.3.2 正则表达式对象

正则匹配成功后，会返回一个Match对象，该对象具有如下属性：

.string 待匹配的文本
.re 匹配时使用的patter对象（正则表达式）
.pos 搜索文本的开始位置
.endpos 搜索文本的结束位置
.group() 获得匹配后的字符串
.groups()
.start() 匹配字符串在原始字符串的开始位置
.end() 匹配字符串在原始字符串的结束位置
.span() 返回(.start(), .end())

此外，match对象也具有re函数提供的正则匹配的功能。

15.4 正则表达式在数据抓取上的应用

stdcoutzrh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python正则表达式

Python正则表达式15.1 从re模块开始15.2 特殊字符15.2.1 字符相关15.2.2 次数相关15.2.3 边界相关15.2.4 组相关15.2.5 控制标记15.3 相关属性与方法15.3.1 re模块的函数15.3.2 正则表达式对象15.4 正则表达式在数据抓取上的应用15.1 从re模块开始正则表达式可以对指定的字符串与模式之间执行模式匹配。模式可以是普通的字符串，也可以...
复制链接

扫一扫