2.8多行匹配

问题

​ 你正在试着用正则表达式去匹配一大块的文本,而你需要跨越多行去匹配。

解决方案

​ 这个问题很典型的小淮娘在当你用点(.)去匹配任意字符的时候,忘记了点(.) 不能匹配换行符的事实。比如假设你想试着匹配C语言分割的注释:

import re

comment = re.compile(r'/\*(.*?)\*/')
text1 = '/* this is a comment */'
text2 = '''/* this is a 
      'comment */
    '''
print(comment.findall(text1)) # ->[' this is a comment ']
print(comment.findall(text2))  # -> []

​ 为了修正 这个问题,可以修改模式字符串,增加对换行的支持,比如

comment = re.compile(r'/\*((?:.|\n)*?)\*/')
print(comment.findall(text1)) # ->[' this is a comment ']
print(comment.findall(text2))  # -> [" this is a \n      'comment "]

​ 在这个模式中,(?:.|\n)指定了一个非捕获组(有就是它定义了一个仅仅用来做匹配,而不能通过简单捕获或者编码的组)。

讨论

​ re.compile()函数接受一个标志参数叫re.DOTALL,在这里非常有用,它可以让正则表达式的点(.)匹配包括换行符在内的任意字符。比如:

comment=re.compile(r'/\*(.*?)\*/',re.DOTALL)
print(comment.findall(text2))  # ->[" this is a \n      'comment "]

​ 标记参数工作的很好,但是如果模式非常复杂或者是为了构造字符串令牌而将多个模式合并起来,这时候使用这个标记参数就可能出现一些问题。如果让你选择的话,最好还是自定义的正则表达模式,这样可以在不需要额外的标记参数下也能工作的很好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值