正则表达式的括号与贪婪匹配

最新推荐文章于 2024-10-12 20:01:58 发布

morein2008

最新推荐文章于 2024-10-12 20:01:58 发布

阅读量146

点赞数

分类专栏：爬虫/网页解析正则表达式文章标签：正则表达式网络 linux 安全

本文链接：https://blog.csdn.net/hoo1990/article/details/117377849

版权

正则表达式同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

爬虫/网页解析

5 篇文章 0 订阅

订阅专栏

今天遇到一个正则表达式 regex = '<div class="div_result[\s\S]+?>([\s\S]+)</div>'
我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串，但结果只获取了<div></div>之间的内容，十分不解，上网查了之后才知道，原来括号具有获取匹配的作用：
(pattern)———会匹配pattern并获取这一匹配.

而问号除了表示零个或一个之外，还可以抑制贪婪匹配，默认情况下都是贪婪匹配(匹配的越多越好)，如果同时有多个模式同时贪婪匹配，最后的结果是相互竞争妥协的结果。

import re

def getRegResults(reg, data):
    pattern = re.compile(reg)
    resultLists = re.findall(pattern, data)
    return resultLists


if __name__=='__main__':
    s="abcd_123e  fg hk456"
    reg='abc.+([\s\S]+?)\d+'
    reg2='([\s\S]+?)'
    reg3='([\S]?)'
    reg4='([\s\S]+?)'
    reg5='([\S]+)'
    print getRegResults(reg, s)
    print getRegResults(reg2, s)
    print getRegResults(reg5, s)
    print getRegResults(reg3, s)
    print getRegResults(reg4, s)

reference:

http://www.cnblogs.com/yirlin/archive/2006/04/12/373222.html

http://www.cnblogs.com/graphics/archive/2010/06/02/1749707.html