鱼c笔记——Python正则表达式(四):search()、findall()方法要注意的细节及非捕获组

search()方法既有模块级别的,即re.search();编译后的正则表达式对象也同样拥有search() 方法。

但是两者还是有些细微差别的:

re.search() 有个参数flags是表示编译标志。而regex.search() 有两个参数pos和endpos用来表示搜索的起始位置和终止位置。

search()方法并不会立刻返回我们能够使用的字符串,返回的而是一个匹配对象。

>>> import re

>>> result = re.search(r' (\w+) (\w+)', 'I Love Study!')  #\w表示匹配任何字符单词,+表示匹配一次或多次
>>> result   #可以看出result是一个正则表达式匹配对象
<_sre.SRE_Match object; span=(1, 12), match=' Love Study'>

>>> result.group()#使用一些方法才能获得我们需要的字符串,例如group()方法
' Love Study'


#对于group()方法,如果正则表达式模式中存在子组,那么子组会将匹配的内容进行捕获,通过对group()方法设置序号,可以提取对应子组捕获的字符串
>>> result.group(1)  #提取第一个子组捕获的内容
'Love'

>>> result.group(2)  #提取第二个子组捕获的内容
'Study'


#返回的对象还有几个方法:start()表示匹配开始的位置, end()表示匹配结束的位置, span()表示匹配的范围
>>> result.start()
1
>>> result.end()
12
>>> result.span()
(1, 12)




findall() 方法:在正则表达式没有子组时,会找到所有正则表达式模式匹配的内容,并将它们组织成列表返回。

有子组时就会不太一样了,举个例子说明:

import urllib.request
import re

def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0')
    response = urllib.request.urlopen(req)

    html = response.read().decode('utf-8')

    return html


def get_images(html):
    p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'   #直接加上()就行
    imglist = re.findall(p, html)
    
    '''
    for each in imglist:
        print(each)
    '''
    for each in img_list:
        filename = each.spilt("/")[-1]
        urllib.request.urlretrieve(each, filename, None)

if __name__ == '__main__':
    url = 'https://tieba.baidu.com/p/5530143748'
    get_images(open_url(url))

不加小括号:



加小括号:



为什么加上小括号就这么神奇呢?

因为在findall()方法中,如果给出的正则表达式模式包含子组的话,就会把子组的内容单独返回回来。如果包含多个子组,会把匹配的内容组合成元组的形式返回。



下面是以获取IP地址为例子说明findall()方法中有多个子组的使用方法:

import urllib.request
import re

def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0')
    response = urllib.request.urlopen(req)

    html = response.read().decode('utf-8')

    return html        


def get_images(html):
    
    p = r'(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])'   #出现奇怪结果的原因:因为我们在正则表达式模式里面使用了三个子组,findall方法对他们进行了分类,然后把结果以元组的形式返回了。
    #解决方法:可以让子组不捕获内容。这个可以通过扩展语法非捕获组实现。把所有出现子组的位置加上?:
    iplist = re.findall(p, html)
    
    for each in iplist:
        print(each)

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/'
    get_images(open_url(url))

不使用非捕获组的结果:



使用非捕获组:



(?...) : 以 (? 开头的表示为正则表达式的扩展语法

(?:...):非捕获组,即该子组匹配的字符串无法从后边获取

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值