写在前面:
最开始接触正则表达式是看了廖师傅的教程。里面介绍了一些基础的内容,最近看flask的源码,看路由部分的时候又涉及了很多正则表达式的内容,所以准备开个帖子,将正则表达式的内容整理一下,以后遇到的新的内容也添加进来~
分组()
当在正则表达式的pattern中使用()将某一部分括起来的时候,就是使用了分组的功能。对匹配成功后返回的match对象,可以调用group方法来查看分组的结果。
>>> m = re.match(r'^(\d{3})-(\d{5})$', '010-54321')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-54321'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'54321'
通过在()里面添加其它命令,可以更好地实现分组。
给命名分组(?P<组名>pattern)
如标题,通过在分组里面加(?P<组名>pattern)
可以对分组进行命名,这样的好处是当我们查看分组内容的时候可以直接通过组命来查看。
非捕获匹配(?P:pattern)
不将pettern匹配的内容保存到group的结果中,通常会在后面跟*
、+
、?
、{n}
、{n,m}
等。这出现在我们会想将pattern部分作为一个整体进行判断,但是不需要将其捕获的情况下。
下面是werkzeug.routing中解析我们传入url的正则,通过static、converter、args、variable对分组进行命名,匹配后可以通过group('static')
的方式查看匹配内容。同时整个的转换器的部分使用了非捕获匹配,是为了将其作为一个整体,加?
进行匹配。
_rule_re = re.compile(
r"""
(?P<static>[^<]*) # static rule data
<
(?:
(?P<converter>[a-zA-Z_][a-zA-Z0-9_]*) # converter name
(?:\((?P<args>.*?)\))? # converter arguments
\: # variable delimiter
)?
(?P<variable>[a-zA-Z_][a-zA-Z0-9_]*) # variable name
>
""",
re.VERBOSE,
)
非捕获匹配,正向肯定预查(?P=pattern)
正向肯定预查(look ahead positive assert),匹配pattern前面的位置。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如,“Windows(?=95|98|NT|2000)“能匹配"Windows2000"中的"Windows”,但不能匹配"Windows3.1"中的"Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
非捕获匹配,正向否定预查(?P!pattern)
正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如"Windows(?!95|98|NT|2000)“能匹配"Windows3.1"中的"Windows”,但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
非捕获匹配,反向肯定预查(?P<=pattern)
反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。
例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。
非捕获匹配,反向否定预查(?P<!pattern)
反向否定预查,与正向否定预查类似,只是方向相反。例如"(?<!95|98|NT|2000)Windows"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows"。
————更新中。