Python实用技法第27篇：编写多行模式的正则表达式

最新推荐文章于 2023-06-18 16:46:29 发布

weixin_33836874

最新推荐文章于 2023-06-18 16:46:29 发布

阅读量183

点赞数

文章标签： python c/c++

原文链接：https://segmentfault.com/a/1190000017170685

版权

上一篇文章： Python实用技法第26篇：定义实现最短匹配的正则表达式
下一篇文章： Python实用技法第28篇：将Unicode文本统一表示为规范形式

1、需求?

我们打算用正则表达式对一段文本块做匹配，但是希望在进行匹配时能够跨越多行。

2、解决方案?

这个问题一般出现在希望使用句点(.)来匹配任意字符，但是忘记了句点并不能匹配换行符。

实例：假设向匹配C语言风格的注释：

import re

str_pat=re.compile(r'/\*(.*?)\*/')
text1="/* mark */"
text2='''/* mark 
            2018    */'''
print(str_pat.findall(text1))
print(str_pat.findall(text2))

结果：

[' mark ']
[]

要解决这个问题，可以添加对换行符的支持。

实例：

import re

#将.换成(?:.|\n)
str_pat=re.compile(r'/\*((?:.|\n)*?)\*/')
text1="/* mark */"
text2='''/* mark 
            2018    */'''
print(str_pat.findall(text1))
print(str_pat.findall(text2))

结果：

[' mark ']
[' mark \n 2018 ']

(?:.|n)指定了一个非捕获组（即，这个组只做匹配但不捕获结果，也不会分配组号）。

3、分析?

re.compile()函数可接受一个有用的标记：re.DOTALL，这使得表达式中的句点【.】可以匹配所有的字符，也包括换行符。

实例：

import re

str_pat=re.compile(r'/\*(.*?)\*/',re.DOTALL)
text1="/* mark */"
text2='''/* mark 
            2018    */'''
print(str_pat.findall(text1))
print(str_pat.findall(text2))

结果：

[' mark ']
[' mark \n 2018 ']

对于简单的情况，使用re.DOTALL标记就可以很好的完成工作。但是如果要处理及其复杂的模式，可以选择利用非捕获组定义在自己的表达式中，这样无需额外的标记也能正常工作。

上一篇文章： Python实用技法第26篇：定义实现最短匹配的正则表达式
下一篇文章： Python实用技法第28篇：将Unicode文本统一表示为规范形式

weixin_33836874

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫