比较详细Python正则表达式操作指南(re使用)[6]

最新推荐文章于 2023-06-15 09:51:06 发布

CsharpGame

最新推荐文章于 2023-06-15 09:51:06 发布

阅读量775

点赞数

分类专栏： python 正则表达式

python 同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

正则表达式

11 篇文章 0 订阅

订阅专栏

分组

你经常需要得到比 RE 是否匹配还要多的信息。正则表达式常常用来分析字符串，编写一个 RE 匹配感兴趣的部分并将其分成几个小组。举个例子，一个 RFC-822 的头部用 ":" 隔成一个头部名和一个值，这就可以通过编写一个正则表达式匹配整个头部，用一组匹配头部名，另一组匹配头部值的方式来处理。

组是通过 "(" 和 ")" 元字符来标识的。 "(" 和 ")" 有很多在数学表达式中相同的意思；它们一起把在它们里面的表达式组成一组。举个例子，你可以用重复限制符，象 *, +, ?, 和 {m,n}，来重复组里的内容，比如说(ab)* 将匹配零或更多个重复的 "ab"。

#!python

>>> p = re.compile('(ab)*' )

>>> print p.match('ababababab' ).span()

(0, 10)

组用 "(" 和 ")" 来指定，并且得到它们匹配文本的开始和结尾索引；这就可以通过一个参数用 group()、start()、end() 和 span() 来进行检索。组是从 0 开始计数的。组 0 总是存在；它就是整个 RE，所以 `MatchObject` 的方法都把组 0 作为它们缺省的参数。稍後我们将看到怎样表达不能得到它们所匹配文本的 span。

#!python

>>> p = re.compile('(a)b' )

>>> m = p.match('ab' )

>>> m.group()

'ab'

>>> m.group(0)

'ab'

小组是从左向右计数的，从1开始。组可以被嵌套。计数的数值可以能过从左到右计算打开的括号数来确定。

#!python

>>> p = re.compile('(a(b)c)d' )

>>> m = p.match('abcd' )

>>> m.group(0)