python正则表达式简介_python的re.s模式匹配符不能结束-CSDN博客

本文链接：https://blog.csdn.net/u013230234/article/details/78683262

之前未接触过正则表达式，今日看python网络爬虫的源码，里面一行正则表达式匹配的代码初看之下，不是很理解，代码如下：

myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式，按理解应该是匹配任意字符0个或多个（re.S模式，“.”可以匹配“\n”），但是这个“？”总觉的在这儿是多余的，既然不理解，就敲代码试试：

import re

patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.baidu.com

这个结果，应该说是意料之中，加个“？”呢？

import re

patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.

竟然是这个结果。。。“. ?”一个字符都没匹配，按“.”、“ ”、“?”的匹配理解，也就是“*”“？”均匹配前面字符0次，才会是这个结果，可是为啥就是0次了？
这就是正则表达式贪婪模式和非贪婪模式：
贪婪模式，总是尝试匹配尽可能多的字符；
非贪婪模式则相反，总是尝试匹配尽可能少的字符。
Python里数量词默认是贪婪的，这就解释了第一个匹配实验，输出结果为”www.baidu.com”（贪婪模式），也就是说第二个匹配实验是非贪婪模式，仅仅因为加了“？”，继续实验

import re

patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.b

此次匹配结果，显然是贪婪模式。奇怪了，也就是“？”的特殊组合才是非贪婪模式。
网上搜索得如下说明：
标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

显然“*？”的组合是非贪婪模式，猜想正确，原来如此啊。

还有就是， Python 中字符串前面加上 r 表示原生字符串，与大多数编程语言相同，正则表达式里使用 "\" 作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符 "\" ，那么使用编程语言表示的正则表达式里将需要4个反斜杠 "\\\\" ：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用 r"\\" 表示。同样，匹配一个数字的 "\\d" 可以写成 r"\d" 。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。
\b 匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。 \B 匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
match() 函数只检测RE是不是在string的开始位置匹配， search() 会扫描整个 string 查找匹配, 也就是说 match() 只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话， match() 就返回 none