正则表达式re之扩展

参考:
http://blog.csdn.net/goodboy5201314/article/details/42642591
http://blog.csdn.net/goodboy5201314/article/details/42642643

捕获组
捕获组就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用

例如: r”(a)(b)(c)”中的捕获组编号为

组0: abc
组1: a
组2: b
组3: c
其中,组0是正则表达式整体匹配结果,组123才是子表达式匹配结果

特点
·子表达式捕获组编号从1开始,顺序从左到右(例如编号1是左侧第一个()包裹的子表达式的结果)
·可以在正则表达式中对前面捕获的内容进行引用(反向引用)
·也可以在程序中,对捕获组捕获的内容进行引用(比如replace中)

>>> p = re.compile(r"(a)(b)(c)")
>>> p.search("abc")
<_sre.SRE_Match object; span=(0, 3), match='abc'>
>>> m = p.search("abc")
>>> m.group()
'abc'
>>> m.group(0)
'abc'
>>> m.group(1)
'a'
>>> m.group(2)
'b'
>>> m.group(3)
'c'

一、正则表达式的扩展语法
1.非捕获组(?: )

第一个我们要讲的是非捕获组。有时候你知识需要用一个组来表示部分正则表达式,你并不需要这个组去匹配任何东西,这时你可以通过非捕获组来明确表示你的意图。捕获组的编号直接跳过了它。
非捕获组的语法是 (?: …),这个 … 你可以替换为任何正则表达式。

>>> m = re.match("([abc])+", "abc")
>>> m.groups()
('c',)
网上解释:
括号只包括了一个字符,而不是所有的字符。所以结果是c,或者是a都有可能。当然c可能性更大些。
至于为什么是C,因为你括号取的是一组字符中的一个,按正则的规则,它会顺序取。
当然寄存器里保存的是最后一个字符,这样效率最高。
若 m = re.match("([abc]+)", "abc"),只有将+号包括进去后才会得到abc。

>>> m = re.match("(?:[abc])+", "abc")
>>> m.groups()
()
复制代码

小甲鱼解释:“捕获”就是匹配的意思啦,普通的子组都是捕获组,因为它们能从字符串中匹配到数据。

除了你不能从非捕获组获得匹配的内容之外,其他的非捕获组跟普通子组没有什么区别了。你可以在里边放任何东西,使用重复功能的元字符,或者跟其他子组进行嵌套(捕获的或者非捕获的子组都可以)。

当你需要修改一个现有的模式的时候,(?: …) 是非常有用的。原始是添加一个非捕获组并不会影响到其他(捕获)组的序号。值得一提的是,在搜索的速度上,捕获组和非捕获组的速度是没有任何区别的。

2.命名组(?P)

我们再来看另外一个重要功能:命名组。普通子组我们使用序列来访问它们,命名组则可以使用一个有意义的名字来进行访问。

命名组的语法是 Python 特有的扩展语法:(?P)。很明显,< > 里边的 name 就是命名组的名字啦。命名组除了有一个名字标识之外,跟其他捕获组是一样的。

匹配对象的所有方法不仅可以处理那些由数字引用的捕获组,还可以处理通过字符串引用的命名组。除了使用名字访问,命名组仍然可以使用数字序号进行访问:

>>> p = re.compile(r'(?P<word>\b\w+\b)')
>>> m = p.search( '(((( Lots of punctuation )))' )
>>> m.group('word')
'Lots'
>>> m.group(1)
'Lots'
复制代码

命名组非常好用,因为它让你可以使用一个好记的名字代替一些毫无意义的数字。下边是来自 imaplib 模块的例子:

InternalDate = re.compile(r'INTERNALDATE "'
        r'(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-'
        r'(?P<year>[0-9][0-9][0-9][0-9])'
        r' (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])'
        r' (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])'
        r'"')
复制代码

很明显,使用 m.group(‘zonem’) 访问匹配内容要比使用数字 9 更简单明了。
3. (?P=name)
正则表达式中,反向引用的语法像 (…)\1 是使用序号的方式来访问子组;在命名组里,显然也是有对应的变体:使用名字来代替序号。其扩展语法是 (?P=name),含义是该 name 指向的组需要在当前位置再次引用。那么搜索两个单词的正则表达式可以写成 (\b\w+)\s+\1,也可以写成 (?P\b\w+)\s+(?P=word):

>>> p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
>>> p.search('Paris in the the spring').group()
'the the'
复制代码

4.前向断言

我们要讲解的另一个零宽断言是前向断言,前向断言可以分为前向肯定断言和前向否定断言两种形式。

(?=…)
前向肯定断言。如果当前包含的正则表达式(这里以 … 表示)在当前位置成功匹配,则代表成功,否则失败。一旦该部分正则表达式被匹配引擎尝试过,就不会继续进行匹配了;剩下的模式在此断言开始的地方继续尝试。

(?!…)
前向否定断言。这跟前向肯定断言相反(不匹配则表示成功,匹配表示失败)。

为了使大家更易懂,我们举个例子来证明这玩意是真的很有用。大家考虑一个简单的正则表达式模式,这个模式的作用是匹配一个文件名。我们都知道,文件名是用 . 将名字和扩展名分隔开的。例如在 fishc.txt 中,fishc 是文件的名字,.txt 是扩展名。

这个正则表达式其实挺简单的:

.*[.].*$

注意,这里用于分隔的 . 是一个元字符,所以我们使用 [.] 剥夺了它的特殊功能。还有 使 确保字符串剩余的部分都包含在扩展名中。所以这个正则表达式可以匹配 fishc.txt,foo.bar,autoexec.bat,sendmail.cf,printers.conf 等。

现在我们来考虑一种复杂一点的情况,如果你想匹配扩展名不是 bat 的文件,你的正则表达式应该怎么写呢?
我们先来看下你有可能写错的尝试:

不得不承认,我们把事情搞砸了,现在的正则表达式变得艰涩难懂外加奇丑无比!!

更惨的是如果需求改变了,例如你想同时排除 bat 和 exe 扩展名,这个正则表达式模式就变得更加复杂了……

当当当当!主角登场,其实,一个前向否定断言就可以解决你的难题:

.*[.](?!bat$).*$

我们来解释一下这个前向否定断言的含义:如果正则表达式 bat 在当前位置不匹配,尝试剩下的部分正则表达式;如果 bat匹配成功,整个正则表达式将会失败(因为是前向否定断言嘛^_^)。(?!bat ) 是为了确保可以正常匹配像sample.batch 这种以 bat 开始的扩展名。

同样,有了前向否定断言,要同时排除 bat 和 exe 扩展名,也变得相当容易:

.*[.](?!bat$|exe$).*$
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值