python 22 re 模块

最新推荐文章于 2022-11-21 14:51:24 发布

思想流浪者

最新推荐文章于 2022-11-21 14:51:24 发布

阅读量364

点赞数 1

分类专栏： python基础文章标签： python 正则表达式 re

本文链接：https://blog.csdn.net/qq_30346413/article/details/115875924

版权

python基础专栏收录该内容

36 篇文章 1 订阅

订阅专栏

(1) re.compile(pattern，flags = 0)

(2) re.search(pattern，string，flags = 0)

（3）re.match(pattern，string，flags = 0)

（4）re.fullmatch(pattern，string，flags = 0)

(5) re.split(pattern，string，maxsplit = 0，flags = 0)

（6）re.findall(pattern，string，flags = 0)

（7）re.finditer(pattern，string，flags = 0)

（8）re.sub(pattern, repl, string, count=0, flags=0)

（9）re.subn(pattern, repl, string, count=0, flags=0)

(10) re.escape(pattern)

re模块

re模块是python匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。

元字符：. ^ $ * + ? { } [ ] | ( ) \

一、正则表达式模式

1、元字符之: . \ [] |

.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
\	反斜杠后边跟元字符去除特殊功能，比如 \. 反斜杠后边跟普通字符实现特殊功能，比如 \d
[...]	字符集。对应字符集中的任意字符，第一个字符是^则取反。
\|	a\|b , 匹配a或b

2、预定义字符集

\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字，等价于 [^0-9]
\s	匹配任意空白字符，等价于 [\t\n\r\f]
\S	匹配任意非空字符，等价于 [^\t\n\r\f]
\w	匹配字母数字及下划线，等价于 [a-zA-Z0-9]
\W	匹配非字母数字及下划线，等价于 [^a-zA-Z0-9]
\b	匹配一个单词边界，也就是只单词和空格间的位置。如 ‘er\b' 可以匹配 ’nerver‘ 中的 'er'；但不能匹配 'verb' 中的 'er'
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'
\G	匹配最后匹配完成的位置

3、数量词

re*	匹配0个或多个的表达式
re+	匹配1个或多个的表达式
re？	匹配0个或1个由前面正则表达式定义的片段，非贪婪方式
re{n}	精准匹配n个前面表达式。例如 o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。
re{n, }	匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式

注意：前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

a.*	re.findall('a.*', "aaabca")	['aaabca']
a.*?	re.findall('a.*?', "aaabca")	['a', 'a', 'a', 'a']
a.+	re.findall('a.+', "aaabca")	['aaabca']
a.+?	re.findall('a.+?', "aaabca")	['aa', 'ab']
a.?	re.findall('a.?', "aaabca")	['aa', 'ab', 'a']
a.??	re.findall('a.??', "aaabca")	['a', 'a', 'a', 'a']

4、边界匹配

^	匹配字符串开头，如 ^abc匹配以abc开头的字符串。
$	匹配字符串结尾，如xyz$匹配以xzy结尾的字符串。
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束

5、元字符之：分组 ()

(...)

匹配括号内的正则表达式

含多个括号的表格式，使用re.findall()方法匹配结果为一个元组，所有匹配结果是一个包含多个元组的列表或是一个空列表

>>> re.findall("([a-z])([A-Z])", "aAbBcd")
[('a', 'A'), ('b', 'B')]

(?aiLmsux)

（集合“a”、“i”、“L”、“m”、“s”、“u”、“x”中的一个或多个字母）这些字母为整个正则表达式设置了相应的标志：re.A（仅ASCII匹配）、re.I（忽略大小写）、re.L（与区域设置相关）、re.M（多行）、re.S（点匹配全部）、re.U（Unicode匹配）和re.X（详细）(这些标志在模块内容中进行了描述。）如果您希望将这些标志作为正则表达式的一部分，而不是将标志参数传递给re.compile（）方法。应该首先在表达式字符串中使用标志。

下面是通过i设置忽略大小写，使用(?i)

>>> re.findall("([a-z])-([A-Z])", "a-Ab-Bc-d")
[('a', 'A'), ('b', 'B')]
>>> 
>>> 
>>> re.findall("([a-z])-(?i)([A-Z])", "a-Ab-Bc-d")
[('a', 'A'), ('b', 'B'), ('c', 'd')]

(?:...)

普通圆括号的非捕获版本。匹配括号内的任何正则表达式，但在执行匹配或稍后在模式中引用后，无法检索组匹配的子字符串。

下面匹配 - 使用 (?:-), 匹配结果将不包含括号内的 -

>>> re.findall("([a-z])(-)(?i)([A-Z])", "a-Ab-Bc-deE")
[('a', '-', 'A'), ('b', '-', 'B'), ('c', '-', 'd')]
>>> 
>>> re.findall("([a-z])(?:-)(?i)([A-Z])", "a-Ab-Bc-deE")
[('a', 'A'), ('b', 'B'), ('c', 'd')]

>>> ret = re.search("([a-z])(?:-)(?i)([A-Z])", "a-Ab-Bc-deE")
>>> ret
<_sre.SRE_Match object; span=(0, 3), match='a-A'>
>>> 
>>> ret.group()
'a-A'
>>> ret.group(1)
'a'
>>> ret.group(2)
'A'

(?P<name>...)

类似于普通括号，但是组匹配的子字符串可以通过符号组名访问。组名必须是有效的Python标识符，并且每个组名只能在正则表达式中定义一次。

>>> ret = re.search("(?P<chart1>[a-z])(?:-)(?P<chart2>[A-Z])", "a-Ab-Bc-deE")
>>> 
>>> ret
<_sre.SRE_Match object; span=(0, 3), match='a-A'>
>>> 
>>> ret.group("chart1")
'a'
>>> ret.group("chart2")
'A'

(?=...)

前瞻断言。例如，Isaac(?=Asimov) 只有在后跟“Asimov”时才会匹配“Isaac”。

>>> re.findall("Isaac(?=Asimov)", "IsaacAsimov")
['Isaac']

>>> re.findall("abc(?=ABC)", "abcABC-abcABC")
['abc', 'abc']

(?!...)

例如，Isaac(?!Asimov) 只有在后面没有“Asimov”时才会与“Isaac”匹配。

>>> re.findall("Isaac(?!Asimov)", "IsaacAsimov")
[]
>>> re.findall("Isaac(?!Asimov)", "Isaac1Asimov")
['Isaac']
>>>

(?<=...)

positive lookbehind assertion , 如果(?<=...)中的正则匹配成功，返回后面正则匹配的字符串

>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m
<_sre.SRE_Match object; span=(3, 6), match='def'>
>>> m.group()
'def'

(?<!...)

negative lookbehind assertion， (?<!...) 不满足正则表达式 ... 的内容，则括号之外后面需要匹配的字符串。

>>> m = re.search(r'(?<!-)\w+', 'spam-egg')
>>> m.group()
'spam'

(?(id/name)yes-pattern|no-pattern)

如果具有给定id或名称的组存在，将尝试与“yes-pattern”模式匹配；如果不存在，将尝试与“no-pattern”模式匹配。没有模式是可选的，可以省略。

例如，(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$) 是一个邮件匹配模式，它将与'<user@host.com>'以及'user@host.com'，但不是'user@host.com>' ， '<user@host.com'

>>> re.match("(<)?(\w+@\w+(?:\.\w+)+)((?(1)>|$))", "<user@host.com>")
<_sre.SRE_Match object; span=(0, 15), match='<user@host.com>'>
>>> 
>>> re.match("(<)?(\w+@\w+(?:\.\w+)+)((?(1)>|$))", "<user@host.com")
>>> 
>>> re.match("(<)?(\w+@\w+(?:\.\w+)+)((?(1)>|$))", "user@host.com>")
>>> 
>>> re.match("(<)?(\w+@\w+(?:\.\w+)+)((?(1)>|$))", "user@host.com")
<_sre.SRE_Match object; span=(0, 13), match='user@host.com'>
>>>

>>> re.findall(r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)", "<user@host.com>")
[('<', 'user@host.com')]
>>> re.findall(r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)", "user@host.com")
[('', 'user@host.com')]
>>> re.findall(r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)", "<user@host.com")
[('', 'user@host.com')]
>>> re.findall(r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)", "user@host.com>")
[]

上面表达式re.findall(r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)", "<user@host.com") 能将'<user@host.com“能匹配出来，因为当？ = 1 不成了，当时当？ = 0 成立。

要么在表达式前面使用^ ，或是使用re.match() 方法

身份证号码是一个长度为15或18个字符的字符串，

如果是15位则全部由数字组成，首位不能为0；

如果是18位，则前17位全部是数字，末位可能是数字或x，

正则	通过re 使用该正则	校验结果
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	re.findall(r'^([1-9]\d{16}[1-9x]\|[1-9]\d{14})$', "110105199812067023")	['110105199812067023']

表示先匹配 ^[1-9]\d{16}[0-9x]$ 如果没有匹配上就匹配 ^[1-9]\d{14}$

6、再说字符集 [] [^]

[] 里面的 ^ 不是以什么作为开头，而是取反。也就是不匹配[]里面的字符。

正则	使用re	匹配结果	说明
a[befcgd]*	re.findall("a[befcgd]*", "abefacgad")	['abef', 'acg', 'ad']	表示匹配"a"后面[befcgd]的字符任意次
a[^f]*	re.findall("a[^f]*", "abefacgad")	['abe', 'acgad']	表示匹配一个不是"f"的字符任意次

7、再说转义字符

　　在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

　　在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成'\\n'，那么正则里就要写成"\\\\n",这样就太麻烦了。这个时候我们就用到了r'\n'这个概念，此时的正则是r'\\n'就可以了。

正则	待匹配字符	匹配结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\\n	\n	True	转义\之后变成\\，即可匹配
"\\\\n"	'\\n'	True	如果在python中，字符串中的'\'也需要转义，所以每一个字符串'\'又需要转义一次
r'\\n'	r'\n'	True	在字符串之前加r，让整个字符串不转义

使用re模块

返回结果

re.findall('a\\\\k', 'a\k')

['a\\k']

python解释器先把 \\\\ 转换为 \\ 传给正则，正则拿到 \\ ，相当于普通字符 \

结果输出为 a\\k, \\ 表示是一个普通 \

re.findall(r'a\\k', 'a\k')

['a\\k']

r'a\\k'， python不对 \\ 进行转换，直接传给正则，正则拿到 \\ ，相当于普通字符 \

结果输出为 a\\k, \\ 表示是一个普通 \

8、贪婪匹配和懒惰匹配

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

a.*	re.findall('a.*', "aaabca")	['aaabca']	* 匹配 0 到无限个，尽可能多
a.+	re.findall('a.+', "aaabca")	['aaabca']	+ 匹配 1 到无限个，尽可能多
a.?	re.findall('a.?', "aaabca")	['aa', 'ab', 'a']	？匹配 0 或一个，尽可能多

懒惰匹配

注意：前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

a.*?	re.findall('a.*?', "aaabca")	['a', 'a', 'a', 'a']	*？匹配 0 到无限个，尽可能少，最少为0
a.+?	re.findall('a.+?', "aaabca")	['aa', 'ab']	+？匹配 1 到无限个，尽可能少，最少为1
a.??	re.findall('a.??', "aaabca")	['a', 'a', 'a', 'a']	？？匹配 0 或一个，尽可能少，最少为0

几个常用的非贪婪匹配Pattern

*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

.*?的用法

. 是任意字符
* 是取 0 至无限长度
? 是非贪婪模式。
何在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x 就是取前面任意长度的字符，直到一个x出现

二、re 模块

1、常量

(1）re.A（re.ASCII） 让\w，\W，\b，\B，\d，\D，\s和\S 执行ASCII-只匹配完整的Unicode匹配代替。这仅对Unicode模式有意义，而对于字节模式则忽略。

(2) re.I（re.IGNORECASE） 执行不区分大小写的匹配；类似的表达式也[A-Z]将匹配小写字母。

(3) re.L（re.LOCALE）　让\w，\W，\b，\B和区分大小写的匹配取决于当前的语言环境。该标志只能与字节模式一起使用。不建议使用此标志，因为语言环境机制非常不可靠，它一次只能处理一种“区域性”，并且仅适用于8位语言环境。默认情况下，Python 3中已为Unicode（str）模式启用了Unicode匹配，并且能够处理不同的语言环境/语言。

(4) re.M（re.MULTILINE）　　指定时，模式字符'^'在字符串的开头和每行的开头（紧随每个换行符之后）匹配；模式字符''在字符串的末尾和每行的末尾（紧接在每个换行符之前）匹配。默认情况下，'^' 仅在字符串的开头，字符串''在字符串的末尾和每行的末尾（紧接在每个换行符之前）匹配。默认情况下，'^' 仅在字符串的开头，字符串''的末尾和字符串末尾的换行符（如果有）之前立即匹配。

(5) re.S（re.DOTALL）使'.'特殊字符与任何字符都匹配，包括换行符；没有此标志，'.'将匹配除换行符以外的任何内容。

2、常用方法

(1) re.compile(pattern，flags = 0)

将正则表达式模式编译为正则表达式对象，可使用match()，search()以及下面所述的其他方法将其用于匹配

>>> prog = re.compile('[\d]+')  # 正则对象
>>> prog
re.compile('[\\d]+')
>>>
>>> prog.search("12ab34cd")
<re.Match object; span=(0, 2), match='12'>
>>>
>>> prog.search("12ab34cd").group()  # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。
'12'
>>>
>>>
>>> prog.match("12ab34cd")
<re.Match object; span=(0, 2), match='12'>
>>>
>>> prog.match("12ab34cd").group()
'12'
>>>
>>>
>>> prog.findall("12ab34cd")
['12', '34']

(2) re.search(pattern，string，flags = 0)

扫描字符串，查找正则表达式模式产生匹配项的第一个位置，然后返回相应的match对象。

如果字符串中没有位置与模式匹配，则返回 None。

>>> prog = re.search("\d+", "12ab34cd")
>>> prog
<re.Match object; span=(0, 2), match='12'>
>>>
>>> prog.group()
'12'
>>>
>>> re.search("\d+", "abcd") == None
True

（3）re.match(pattern，string，flags = 0)

从字符串的开头开始匹配，如果有字符串与表达式模式匹配，则返回相应的匹配对象。

如果字符串与模式不匹配，则返回 None。

>>> grop = re.match("\d+", "12ab34cd")
>>> grop
<re.Match object; span=(0, 2), match='12'>
>>> grop.group()
'12'
>>>
>>> re.match("\D+", "ab12cd34").group()
'ab'
>>> re.match("\D+", "12ab34cd")  == None
True

re.search() 和 re.match() 方法

Python提供了两种基于正则表达式的原始操作： re.match()仅在字符串的开头匹配，re.search()检查匹配项，在字符串中的任何位置检查匹配项

（4）re.fullmatch(pattern，string，flags = 0)

如果整个字符串与正则表达式模式匹配，则返回相应的match对象。如果字符串与模式不匹配，则返回 None.

>>> re.fullmatch("\d+", "12345").group()
'12345'
>>> re.fullmatch("[a-z]+", "abcde").group()
'abcde'
>>>
>>> re.fullmatch("[a-z]+", "abcde1") == None
True
>>> re.fullmatch("\d+", "12345a") == None
True

(5) re.split(pattern，string，maxsplit = 0，flags = 0)

通过出现模式来拆分字符串。如果在pattern中使用了捕获括号，那么模式中所有组的文本也将作为结果列表的一部分返回。如果maxsplit不为零，则最多会发生maxsplit分割，并将字符串的其余部分作为列表的最后一个元素返回。

# 如果分隔符匹配的字符串在开头，则结果将从空字符串开始；字符串结尾也是如此。
>>> re.split('[ab]', "acdb12a")
['', 'cd', '12', '']
>>>
>>> re.split(r'\W+', 'python version 3')
['python', 'version', '3']
>>>
>>> re.split('[a-c]+', "1a2B3d", flags=re.IGNORECASE)
['1', '2', '3d']
>>>
# 如果在pattern中使用了捕获括号，那么模式中所有组的文本也将作为结果列表的一部分返回
>>> re.split('([a-c]+)', "1a2B3d", flags=re.IGNORECASE)
['1', 'a', '2', 'B', '3d']
>>>
# 如果maxsplit不为零，则最多会发生maxsplit分割，并将字符串的其余部分作为列表的最后一个元素返回
>>> re.split('([a-c]+)', "1a2B3d", maxsplit=1, flags=re.IGNORECASE)
['1', 'a', '2B3d']

（6）re.findall(pattern，string，flags = 0)

以string列表形式返回string中pattern的所有非重叠匹配项。从左到右扫描该字符串，并以找到的顺序返回匹配项。

>>> re.findall('\w+', "hello world, python veresion 3")
['hello', 'world', 'python', 'veresion', '3']
>>>
# 没有匹配则返回一个空列表
>>> re.findall('\w+', ",,,,,,")
[]

（7）re.finditer(pattern，string，flags = 0)

返回一个迭代器，该迭代器在string类型的RE 模式的所有非重叠匹配中产生匹配对象。从左到右扫描该字符串，并以找到的顺序返回匹配项。空匹配项包含在结果中。

# 返回一个迭代器
>>> re.finditer('\w+', "hello world, python veresion 3")
<callable_iterator object at 0x000001CC58AA13A0>
>>>
>>> iter = re.finditer('\w+', "hello world, python veresion 3")
>>> next(iter).group()  # 查看下一个匹配的值
'hello'
>>>
>>> iter = re.finditer('\w+', "hello world, python veresion 3")
>>> [ i.group() for i in iter]  # 列表解析显示所有匹配的值
['hello', 'world', 'python', 'veresion', '3']
>>>

（8）re.sub(pattern, repl, string, count=0, flags=0)

返回通过pattern 匹配，并通过 repl字符串替换的新字符串。

如果没有匹配成功，不替换返回原来字符串。

count参数表示将匹配到的内容进行替换的次数

>>> re.sub('\d', "_", "a1b2c3d4")
'a_b_c_d_'
>>>
>>> re.sub('\d', "_", "a1b2c3d4", count=1)
'a_b2c3d4'
>>>

（9）re.subn(pattern, repl, string, count=0, flags=0)

执行与相同的操作sub()，但返回一个元组。(new_string, number_of_subs_made)

>>> re.subn('\d', "_", "a1b2c3d4")
('a_b_c_d_', 4)
>>>
>>> re.subn('\d', "_", "a1b2c3d4",count=2)
('a_b_c3d4', 2)
>>>

(10) re.escape(pattern)

对文本（字符串）中所有可能被解释为正则运算符的字符进行转义

>>> re.escape("<\>,<*>,<?>,<()>")
'<\\\\>,<\\*>,<\\?>,<\\(\\)>'
>>> re.escape("\d+")
'\\\\d\\+'

思想流浪者

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 22 re 模块

re模块正则表达式操作，主要用于字符串查找和匹配。一、字符和语法1、字符. 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。 [...] 字符集。对应字符集中的任意字符，第一个字符是^则取反。 2、预定义字符集\d 匹配任意数字，等价于 [0-9] \D 匹配任意非数字，等价于 [^0-9] \s 匹配任意空白字符，等价于 [\t\n\r\f] \S ...
复制链接

扫一扫