python正则表达式简介

之前未接触过正则表达式,今日看python网络爬虫的源码,里面一行正则表达式匹配的代码初看之下,不是很理解,代码如下:
myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式,按理解应该是匹配任意字符0个或多个(re.S模式,“.”可以匹配“\n”),但是这个“?”总觉的在这儿是多余的,既然不理解,就敲代码试试:
import re

patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.baidu.com

这个结果,应该说是意料之中,加个“?”呢?
import re

patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.

竟然是这个结果。。。“. ?”一个字符都没匹配,按“.”、“ ”、“?”的匹配理解,也就是“*”“?”均匹配前面字符0次,才会是这个结果,可是为啥就是0次了? 
这就是正则表达式贪婪模式和非贪婪模式: 
贪婪模式,总是尝试匹配尽可能多的字符; 
非贪婪模式则相反,总是尝试匹配尽可能少的字符。 
Python里数量词默认是贪婪的,这就解释了第一个匹配实验,输出结果为”www.baidu.com”(贪婪模式),也就是说第二个匹配实验是非贪婪模式,仅仅因为加了“?”,继续实验
import re

patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don't match")

#output
>>> ==================RESTART =============================
>>> 
www.b

此次匹配结果,显然是贪婪模式。奇怪了,也就是“?”的特殊组合才是非贪婪模式。 
网上搜索得如下说明: 
标准量词修饰的子表达式,在可匹配可不匹配的情况下,总会先尝试进行匹配,称这种方式为匹配优先,或者贪婪模式。此前介绍的一些量词,“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。 
一些NFA正则引擎支持忽略优先量词,也就是在标准量词后加一个“?”,此时,在可匹配可不匹配的情况下,总会先忽略匹配,只有在由忽略优先量词修饰的子表达式,必须进行匹配才能使整个表达式匹配成功时,才会进行匹配,称这种方式为忽略优先,或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。 

显然“*?”的组合是非贪婪模式,猜想正确,原来如此啊。

还有就是, Python   中字符串前面加上 r 表示原生字符串,与大多数编程语言相同,正则表达式里使用  "\"  作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符  "\" ,那么使用编程语言表示的正则表达式里将需要4个反斜杠  "\\\\"  :前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用  r"\\"  表示。同样,匹配一个数字的  "\\d"  可以写成  r"\d"  。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。
\b   匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。   \B   匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
match()   函数只检测RE是不是在string的开始位置匹配, search() 会扫描整个 string 查找匹配, 也就是说  match()  只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话, match()  就返回  none


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值