python正则化_Python正则表达式

最新推荐文章于 2024-05-06 23:59:04 发布

weixin_39785286

最新推荐文章于 2024-05-06 23:59:04 发布

阅读量137

点赞数

文章标签： python正则化

Python正则表达式

Python正则表达式有一个模块“re”，首先，在我们使用正则表达式的时候需要导入这个模块：

import re

分三个部分来介绍Python正则表达式：

元字符

预定义字符

常用功能函数

一、常用字符(元字符)

注：python正则表达式元字符共11个，如下所示：

{}

[]

()

下面将一一介绍：

(1)"."

功能：用于匹配任意(除\n)外的字符

如上，“.”能够匹配任意字符。

注：search是常用的功能函数，将在第三部分介绍，这里只需要知道其第一个参数是模式，第二个参数是待匹配的字符串，返回结果是 match object对象。group是match object对象的方法。

即在字符串(第二个参数)中寻找能够匹配的模式(第一个参数)

(2)“\”

功能：转义字符，使后一个字符变为字面意思(取消元字符的特殊化)

如上实例可见，元字符“.”不再具有特殊意义，而仅仅是一个字面值(字符.)

(3)"*"

功能：匹配前一个字符0次或多次(贪婪匹配)

如上实例可见“*”前的字符b被匹配了3次

(4)“+”

功能：匹配前一个字符1次或无限次

如上实例可见“+”前的字符n被匹配了4次

(5)“?”

功能：匹配前一个字符0次或1次

如上实例分别展示了匹配“？”前的字符一次和零次。

注：具体是零次还是一次是根据字符串中遇到的模式来定的

(6)“^”

功能：匹配字符串的开头(仅仅匹配开头)，多行模式中匹配每一行的开头

注：提前了解(之所以说提前了解是因为后面会在第三部分详细介绍)匹配失败之所以会报如上实例的错误的原因：

因为search函数完成正则表达式的模式匹配，如果成功返回match object对象，如果失败返回None。而group是match object对象的方法，None对象没有这个方法所以报错。

另：从如上实例的第二句也能够发现，纵使字符串的其他部分(非开头部分)有指定的模式(比如字符串的最末尾有abc)，也不会再去匹配(因为^仅仅匹配开头)。

(7)“$”

功能：匹配字符串的结尾(仅仅匹配结尾)，多行模式中匹配每一行的结尾

如上实例，用“^”来理解“$”就非常清楚了。

(8)“|”

功能：匹配左右表达式任意一个

如上实例，“|”好比编程语言中的“或”

(9)“{}”

功能：{m}，即匹配前一个字符m次。{m,n}，即匹配前一个字符m至n次。

如上实例，“{}”中一旦指定了次数，那就一定在指定次数的范围内

(10)“[]”

功能：字符集，对应的位置可以是字符集中的任意字符(注意是任意一个，从下面实例可发现)，可逐个列出([abc])，也可以指定范围([a-c])

如上实例只是简单的应用字符集，字符集的作用非常大。

(11)“()”

功能：将表达式分组

如上实例，第一条有括号那么“a|k”为一个小组，即先匹配sdk然后再匹配a和k中的任意一个。

第二条没有括号那么就是要么匹配sdka要么匹配k了

可见()的功能很简单也很有用，能够实现复杂的正则表达式

二、预定义字符

下面一一介绍：

(1)“\d”

功能：匹配数字，即匹配[0-9]

如上实例，\d的作用就类似于之前讲的[0-9]，即，匹配任意一个数字

(2)“\D”

功能：匹配非数字，即[^\d]

如上实例，将d大写就好比取反(下面也有很多这种情况)，\D为匹配一个非数字

(3)“\s”

功能：匹配任何空白字符[空格,\t,\n,\r,\f,\v]

注：回车符(\r)、换行符(\n)、水平制表符(\t)、垂直制表符(\v)、换页符(\f))

如上实例，\s匹配了一个空格符

(4)“\S”

功能：匹配任何非空把你字符(刚好与\s相反)

如上实例，\S实现的功能与\s正好相反。且\S匹配的任何非空白字符包括除了[空格,\t,\n,\r,\f,\v]的一切。

(5)“\w”

功能：匹配包括下划线在内的字符

如上实例，\w能够匹配数字、字母、下划线(三者为python标识符的组成)但不能匹配特殊字符

(6)“\W”

功能：匹配特殊字符(与\w刚好相反)

如上实例，\W匹配的是特殊字符(非标识符)，与\w刚好相反

(7)"\A"

功能：仅匹配字符串开头(同之前将的元字符^类似)

如上实例，根据元字符^来理解便可

(8)“\Z”

功能：仅匹配字符串结尾(同之前的元字符$类似)

如上实例，根据元字符$来理解便可

(9)“\b”

功能：匹配单词的边界(即，单词和非单词之间的位置)，可左可右

如上实例，第一条语句竟然出现匹配错误，出乎意料。其实，对比三条语句发现后两条的模式参数前加了“r”

这是python比较尴尬的地方，因为如果不加“r”，字符串可能把其中的\b视为转义字符(回退)，所以造成了匹配效果出乎意料。

加上“r”让\失去转义的意思。所以建议写正则表达式时在模式参数前面都加上"r"

另，\b能够很方便的分离单词。

(10)“\B”

功能：匹配单词的内部，即[^\b]

如上实例，根据\b来理解\B已经很清晰了

三、常用功能函数

compile

match

findall

finditer

split

sub

subn

相面将对这些常用功能函数做一一介绍：

(1)“compile()”

功能：编译正则表达式模式，返回一个对象模式。

语法：

re.compile(pattern,flags=0)

参数：pattern为指定的模式，flags为一个标志位(默认为零)

注：flags可取的值如下所示：

re.I

re.M

re.S

re.X

IGNORECASE，忽略大小写的匹配模式

MULTILINE，多行模式, 改变^和$的行为

DOTALL，此模式下 '.' 的匹配不受限制，可匹配任何字符，包括换行符，也就是默认是不能匹配换行符

VERBOSE，冗余模式，此模式忽略正则表达式中的空白和#号的注释

如上实例可见，利用compile将正则表达式编译好后，调用search进行匹配只需指定字符串便可

(2)“match()”

功能：决定是否在字符串刚开始的位置进行匹配。

语法：

re.match(pattern,string,flags=0)

参数：pattern为指定的模式，string为待匹配的字符串，flags为一个标志位(默认为零)

返回类型：匹配成功返回match object对象，匹配失败返回None对象

注：由于match匹配成功返回match object对象，现介绍match object对象的一些常用方法：

group()：返回被re匹配的字符串

groups()：返回一个包含所有小组字符串的元组

start()：返回匹配字符串开始的位置

end()：返回匹配字符串结束的位置

span()：返回一个元组，还元组由匹配字符串开始和结束的位置组成，即(开始位，结束位)注意，左闭右开

(3)“search()”

功能：在字符串中查找匹配模式，只要找到就第一个返回(match object对象)，如未找到就返回None对象。

语法：

re.search(pattern,string,flags=0)

参数：pattern为指定的模式，string为待匹配的字符串，flags为一个标志位(默认为零)

返回类型：匹配成功返回match object对象，匹配失败返回None对象

可见，之前已经用了太多的search方法来完成匹配：

可见span返回的是(2,4)，即左闭右开，字符串的开始时2，而结束不包括4

(4)“findall()”

功能：遍历匹配，获取字符串中所有匹配成功的子字符串，返回一个列表。

语法：

re.findall(pattern,string,flags=0)

参数：pattern为指定的模式，string为待匹配的字符串，flags为一个标志位(默认为零)

返回类型：匹配成功的字符串组成的列表

如上实例可见，模式为[a-z]+，即所有为a-z(小写字母)组成的单词，从匹配结果也可以发现空格和“！”没有匹配，大写字母C也没有进行匹配。

(5)“finditer()”

功能：搜索string，返回一个顺序访问每个匹配结果的迭代器。

语法：

re.finditer(pattern,string,flags=0)

参数：pattern为指定的模式，string为待匹配的字符串，flags为一个标志位(默认为零)

返回类型：一个迭代器对象，迭代器中的每个元素均是match object类的实例对象

如上实例可见，finditer不仅返回匹配成功的字符串的结果，也能够返回起始、结束下标等

(6)“split()”

功能：分割字符串。

语法：

re.split(pattern,string[,maxspilt])

参数：pattern为指定的分割符，string为待分割的字符串,可选参数，maxsplit为最大分割次数(即最多只准将string切maxsplit刀)

返回类型：一个列表，列表中的元素是被分割后的字符串，即List[String]

(7)“sub()”

功能：替换字符串中的每个子串。

语法：

re.sub(pattern,repl,string,count)

参数：pattern为模式，repel为替换的内容，string待匹配的字符串，count默认为0，为替换个数(即，先用模式去匹配字符串，然后repl将匹配到的东西取代)

返回类型：返回替换后的字符串

(8)“subn()”

功能：替换字符串中的每个子串。

语法：

re.subn(pattern,repl,string,count)

参数：pattern为模式，repel为替换的内容，string待匹配的字符串，count默认为0，为替换个数(即，先用模式去匹配字符串，然后repl将匹配到的东西取代)

返回类型：返回替换后的字符串与替换次数组成的元组，即(替换后的字符串，替换次数)

weixin_39785286

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则化_Python正则表达式

Python正则表达式Python正则表达式有一个模块“re”，首先，在我们使用正则表达式的时候需要导入这个模块：import re分三个部分来介绍Python正则表达式：元字符预定义字符常用功能函数一、常用字符(元字符)注：python正则表达式元字符共11个，如下所示：.\*+?^$|{}[]()下面将一一介绍：(1)"."功能：用于匹配任意(除\n)外的字符如上，“.”能够匹配任意字符。注：...
复制链接

扫一扫