Python编程进阶：正则表达式

最新推荐文章于 2024-05-01 06:34:45 发布

iroy33

最新推荐文章于 2024-05-01 06:34:45 发布

阅读量422

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/iroy33/article/details/102730563

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

正则表达式

字符串是编程时涉及到的最多的一种数据结构，对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址，虽然可以编程提取@前后的子串，再分别判断是否是单词和域名，但这样做不但麻烦，而且代码难以复用。

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

所以我们判断一个字符串是否是合法的Email的方法是：

创建一个匹配Email的正则表达式；

用该正则表达式去匹配用户的输入来判断是否合法。

因为正则表达式也是用字符串表示的，所以，我们要首先了解如何用字符来描述字符。
在正则表达式中，如果直接给出字符，就是精确匹配。用\d可以匹配一个数字，\w可以匹配一个字母或数字，所以：

‘00\d’可以匹配’007’，但无法匹配’00A’；
‘\d\d\d’可以匹配’010’；
‘\w\w\d’可以匹配’py3’；

.可以匹配任意字符，所以：

'py.‘可以匹配’pyc’、‘pyo’、'py!'等等。

进阶

看一个复杂的例子：\d{3}\s+\d{3,8}。

我们来从左到右解读一下：

\d{3}表示匹配3个数字，例如’010’；

**\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，**例如匹配' '，' '等；

\d{3,8}表示3-8个数字，例如’1234567’。

综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

如果要匹配’010-12345’这样的号码呢？由于’-'是特殊字符，在正则表达式中，要用’'转义，所以，上面的正则是\d{3}-\d{3,8}。

但是，仍然无法匹配’010 - 12345’，因为带有空格。所以我们需要更复杂的匹配方式。

进阶

用[]表示范围
+表示至少一个
*接任意多个符合前面规则的符号（离它最近）
{0,19}表示接0-19个符合前面规则的符号（离它最近）
A|B A或B

^表示行的开头，^\d表示必须以数字开头。

$表示行的结束，\d$表示必须以数字结束。

[0-9a-zA-Z_]可以匹配一个数字、字母或者下划线；

[0-9a-zA-Z_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如’a100’，‘0_Z’，'Py3000’等等；

[a-zA-Z_][0-9a-zA-Z_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；

[a-zA-Z_][0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

A|B可以匹配A或B，所以(P|p)ython可以匹配’Python’或者’python’。

你可能注意到了，py也可以匹配’python’，但是加上^py$就变成了整行匹配，就只能匹配’py’了。

re模块

有了准备知识，我们就可以在Python中使用正则表达式了。Python提供re模块，包含所有正则表达式的功能。由于Python的字符串本身也用\转义，因此我们强烈建议使用Python的r前缀，就不用考虑转义的问题了：
s = r’ABC-001’ # Python的字符串
对应的正则表达式字符串不变：
‘ABC-001’

u/U:表示unicode字符串
不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。
一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。
建议所有编码方式采用utf8
r/R:非转义的原始字符串
与普通字符相比，其他相对特殊的字符，其中可能包含转义字符，即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t”表示Tab等。而如果是以r开头，那么说明后面的字符，都是普通的字符了，即如果是“\n”那么表示一个反斜杠字符，一个字母n，而不是表示换行了。
以r开头的字符，常用于正则表达式，对应着re模块。
b:bytes
python3.x里默认的str是(py2.x里的)unicode, bytes是(py2.x)的str, b”“前缀代表的就是bytes
python2.x里, b前缀没什么具体意义，只是为了兼容python3.x的这种写法添加链接描述

match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None。常见的判断方法就是

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

切分字符串

用正则表达式切分字符串比用固定的字符更灵活

>>> import re
>>> 'a b  c'.split(' ')
['a', 'b', '', 'c']
>>> str='a b  c'
>>> re.split(r'\s+',str)
['a', 'b', 'c']
>>> str2='a,b,c,  d'
>>> re.split(r'[\s\,]+', str2)
['a', 'b', 'c', 'd']

如果用户输入了一组标签，下次记得用正则表达式来把不规范的输入转化成正确的数组。

分组

用于提取子串。用（）表示的就是要提取的分组（group）

-加不加转义字符都可以鸭

>>> m=re.match(r'^(\d{3})-(\d{3,8})$','010-12345')
>>> m
<re.Match object; span=(0, 9), match='010-12345'>
>>> m.groups()
('010', '12345')
>>> m=re.match(r'^(\d{3})\-(\d{3,8})$','010-12345')
>>> m
<re.Match object; span=(0, 9), match='010-12345'>

如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。

提取子串非常有用。来看一个更凶残的例子：

t = ‘19:05:30’
m = re.match(r’^(0[0-9]|1[0-9]|2[0-3]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9]):(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$’, t)
m.groups()
(‘19’, ‘05’, ‘30’)
这个正则表达式可以直接识别合法的时间。但是有些时候，用正则表达式也无法做到完全验证，比如识别日期：

‘^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$’
对于’2-30’，'4-31’这样的非法日期，用正则还是识别不了，或者说写出来非常困难，这时就需要程序配合识别了。

贪婪匹配

最后需要特别指出的是，正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。举例如下，匹配出数字后面的0：

re.match(r’^(\d+)(0*)$’, ‘102300’).groups()
(‘102300’, ‘’)

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

re.match(r’^(\d+?)(0*)$’, ‘102300’).groups()
(‘1023’, ‘00’)

编译

当我们在Python中使用正则表达式时，re模块内部会干两件事情：

编译正则表达式，如果正则表达式的字符串本身不合法，会报错；先前不小心输成{3-8}没有报错，就返回了NoneType
用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：>>> import re

编译:

>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

编译后生成Regular Expression对象，由于该对象自己包含了正则表达式，所以调用对应的方法时不用给出正则字符串。

练习

请尝试写一个验证Email地址的正则表达式。版本一应该可以验证出类似的Email：

someone@gmail.com
bill.gates@microsoft.com

import re

re_mail=re.compile(r'^[0-9a-zA-Z\_\.]+\@[0-9a-zA-Z]+\.com$')
def is_valid_email(addr):
    if re_mail.match(addr) is None:
        print('No')
        return False
    else:
        print('OK')
        return True

assert is_valid_email('someone@gmail.com')
assert is_valid_email('bill.gates@microsoft.com')
assert not is_valid_email('bob#example.com')
assert not is_valid_email('mr-bob@example.com')

版本二可以提取出带名字的Email地址：

import re

re_mail=re.compile(r'^[0-9a-zA-Z\_\.]+\@[0-9a-zA-Z]+\.[a-zA-Z]+$')
def is_valid_email(addr):
    if re_mail.match(addr) is None:
        print('No')
        return False
    else:
        print('OK')
        return True

get_name=re.compile(r'^([0-9a-zA-Z\_\.]+)\@[0-9a-zA-Z]+\.[a-zA-Z]+$')
def name_of_email(addr):
    m=get_name.match(addr)
    if m is None:
        return False
    else:
        print(m.groups())
        return m.group(1)
assert is_valid_email('tom@voyager.org')
assert name_of_email('tom@voyager.org') == 'tom'
 OK
('tom',)

assert name_of_email(’ tom@voyager.org’) == ‘Tom Paris’

get_name=re.compile(r'^\<([a-zA-Z\s]+)\>\s+[0-9a-zA-Z\_\.]+|([0-9a-zA-Z\_\.]+)\@[0-9a-zA-Z]+\.[a-zA-Z]+$')

我原先答案是这样，但是(None, ‘tom’)第一个例子就会变成这样
而且在这里插入图片描述
group（0）的值不对
也就是我这种方法，不知道去匹配group（1）还是（2）

\w：用于匹配字母，数字或下划线字符；
\W：用于匹配所有与\w不匹配的字符；

.*? blabla要用起来

get_name=re.compile(r'^(\<([a-zA-Z\s]+)\>\s)?([0-9a-zA-Z\_\.]+)\@[0-9a-zA-Z]+\.[a-zA-Z]+$')
def name_of_email(addr):
    m=get_name.match(addr)
    if m is None:
        print('Invalid!')
        return False
    else:
        print(m.groups())
        print('group 0:',m.group(0))
        return m.group(1)

用了分组+？（）? 达成某一项可选，匹配的时候检查一下是否为none

(None, None, 'tom')
group 0: tom@voyager.org
('<Tom Paris> ', 'Tom Paris', 'tom')
group 0: <Tom Paris> tom@voyager.org

正则表达式30分钟入门教程
 正则表达式在线编辑工具

元字符

\b是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。
\b匹配这样的位置：它的前一个字符和后一个字符不全是(一个是,一个不是或不存在)\w
同样是元字符，不过它代表的不是字符，也不是位置，而是数量——**它指定前边的内容可以连续重复使用任意次以使整个表达式得到匹配**。因此，.连在一起就意味着任意数量的不包含换行的字符。现在\bhi\b.\bLucy\b的意思就很明显了：先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词
不是元字符，-连字号不需要转译
\d是个新的元字符，匹配一位数字(0，或1，或2，或……)
0\d{2}-\d{8}。这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)
\s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格
\w匹配字母或数字或下划线或汉字等
“(”和“)”也是元字符

在这里插入图片描述

重复

在这里插入图片描述
Windows\d+匹配Windows后面跟1个或更多数字

^\w+匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)

字符类

[a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）
下面是一个更复杂的表达式：\(?0\d{2}[) -]?\d{8}。
要么是括号要么是-的形式

“(”和“)”也是元字符，后面的分组节里会提到，所以在这里需要使用转义。
这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。我们对它进行一些分析吧：首先是一个转义字符(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。

分枝条件|

0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。

(0\d{2})[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。

\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

分组

用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了
以127.0.0.1为例
(\d{1,3}.){3} \d{1,3}

IP地址中每个数字都不能大于255. 经常有人问我, 01.02.03.04 这样前面带有0的数字, 是不是正确的IP地址呢? 答案是: 是的, IP 地址里的数字可以包含有前导 0 (leading zeroes).

2[0-4]\d|25[0-5]|[01]?\d\d?
这个拆解的是一项，点分十进制的一个分
先是2开头
2[0123][0-9]
25[0-5]
[01]?\d\d? 或者1打头 ,可以是一位也可以是两位也可以是三位

反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义
在这里插入图片描述
例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

后向引用

关于分组

分组0对应整个正则表达式
实际上组号分配过程是要从左向右扫描两遍的：第一遍只给未命名组分配，第二遍只给命名组分配－－因此所有命名组的组号都大于未命名的组号
你可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权．
默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推（没特意指定的情况下）

后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本。难以理解？请看示例：

\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字\b(\w+)\b，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符\s+，最后是分组1中捕获的内容（也就是前面匹配的那个单词）\1。
你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?\w+)(或者把尖括号换成’也行：(?‘Word’\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k,所以上一个例子也可以写成这样：\b(?\w+)\b\s+\k\b

使用小括号的时候，还有很多特定用途的语法。下面列出了最常用的一些：
在这里插入图片描述
第三个(?:exp)不会改变正则表达式的处理方式，只是这样的组匹配的内容不会像前两种那样被捕获到某个组里面，也不会拥有组号。“我为什么会想要这样做？”——好问题，你觉得为什么呢？
咯咯咯，那我就能用这种表示可选了

get_name=re.compile(r'^(?:\<([a-zA-Z\s]+)\>\s)?([0-9a-zA-Z\_\.]+)\@[0-9a-zA-Z]+\.[a-zA-Z]+$')
def name_of_email(addr):
    m=get_name.match(addr)
    if m is None:
        print('Invalid!')
        return False
    else:
        print(m.groups())
        print('group 0:',m.group(0))
        return m.group(1)
(None, 'tom')
group 0: tom@voyager.org
('Tom Paris', 'tom')
group 0: <Tom Paris> tom@voyager.org
酱紫就都是俩个了

零宽断言

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I’m singing while you’re dancing.时，它会匹配sing和danc。可以用它来查找固定内容的前面可变部分

断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。可以用它来查找固定开头的后面可变部分

可以这么记：先整个匹配，然后截取前面或后面的部分

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890。
(?<=\d)\d{3} 在数字后面，有三个数字，在这里可以添加位置
？？？？？？我以为是

下面这个例子同时使用了这两种断言：(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。
(?<=\s)空格后面的
\d+数字
(?=\s)空格前面的
综上是空格之间的数字

负向零宽断言

前面或后面不包含，只匹配位置，不消费任何字符
前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现，但并不想去匹配它时怎么办？例如，如果我们想查找这样的单词–它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。（如果是我可能会([^u])?)但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^{u]总要匹配一个字符，所以如果q是单词的最后一个字符的话，后面的[}u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的\w*\b将会匹配下一个单词，于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。现在，我们可以这样来解决这个问题：\b\w*q(?!u)\w*\b
零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如：\d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字；\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
同理，我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。(?<=<(\w+)>).*(?=</\1>)匹配不包含属性的简单HTML标签内里的内容。
(?<=<(\w+)>) <(\w+)>后面的
任意内容
(?=</ \w+> ) / <\w+>前面的
整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。
在这里插入图片描述

注释

2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略。启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如，我们可以前面的一个表达式写成这样：

  (?<=    # 断言要匹配的文本的前缀
  <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
  )       # 前缀结束
  .*      # 匹配任意文本
  (?=     # 断言要匹配的文本的后缀
  <\/\1>  # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
  )       # 后缀结束

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

处理选项

在这里插入图片描述

平衡组/递归匹配

有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构，这时简单地使用(.+)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式，懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等，比如( 5 / ( 3 + 2 ) ) )，那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的，配对的括号之间的内容呢？

为了避免(和(把你的大脑彻底搞糊涂，我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx <aa aa> yy这样的字符串里，最长的配对的尖括号内的内容捕获出来？

这里需要用到以下的语法构造：

(?‘group’) 把捕获的内容命名为group,并压入堆栈(Stack)
(?’-group’) 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败
(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分
(?!) 零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败
(?!exp) 匹配后面跟的不是exp的位置，那么(?!)后面一旦有，就会失败

我们需要做的是每碰到了左括号，就在压入一个"Open",每碰到一个右括号，就弹出一个，到了最后就看看堆栈是否为空－－如果不为空那就证明左括号比右括号多，那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符)，尽量使整个表达式得到匹配。

< #最外层的左括号
[^<>]* #最外层的左括号后面的不是括号的内容
(
(
(?‘Open’<) #碰到了左括号，在黑板上写一个"Open"
[^<>]* #匹配左括号后面的不是括号的内容
)+
(
(?’-Open’>) #碰到了右括号，擦掉一个"Open"
[^<>]* #匹配右括号后面不是括号的内容
)+
)*
(?(Open)(?!)) #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的"Open"；如果还有，则匹配失败

                    #最外层的右括号

平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的

标签： <div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>.

在这里插入图片描述

iroy33

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python编程进阶：正则表达式

正则表达式字符串是编程时涉及到的最多的一种数据结构，对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址，虽然可以编程提取@前后的子串，再分别判断是否是单词和域名，但这样做不但麻烦，而且代码难以复用。正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不...
复制链接

扫一扫