Python爬虫开发——第三章：基本库的使用

最新推荐文章于 2024-04-26 01:45:49 发布

陈Nicole

最新推荐文章于 2024-04-26 01:45:49 发布

阅读量529

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/chanciecarney/article/details/119606893

版权

3.1 urllib

这节主要讲解Python3中的urllib库的用法，urllib是Python标准库中用于网络请求的库。该库有4个模块，分别是urllib.request、urllib.error、urllib.parse、urllib.robotparser。其中urllib.request和urllib.error两个库在爬虫程序中应用得比较频繁。

3.1.1 urlopen( )

模拟浏览器发起一个HTTP请求，需要用到urllib.request模块。urllib.request的作用不仅是发起请求，还能获取请求返回结果。下面先看一下urlopen（）的API。

def urlopen(
	url, 
	data=None, 
	timeout=socket._GLOBAL_DEFAULT_TIMEOUT,*, 
	cafile=None, 
	capath=None, 
	cadefault=False, 
	context=None
	)

url参数是string类型的地址，也就是要访问的URL，例如http://www.baidu.com。
data参数是bytes类型的内容，可以通过bytes( )函数转换为字节流，它也是可选参数。使用data参数，请求方式变成以post方式提交表单。使用标准格式是application/x-www-form-urlencoded.
timeout参数用于设置请求超时时间，单位是秒。
cafile和capath参数代表CA证书和CA证书的路径，如果使用HTTPS则需要用到。
cadefault参数已经被弃用，可以忽略
该方法也可以单独传入urllib.request.Request对象
该函数返回的结果是一个http.client.HTTPResponse对象

其实在实际的使用过程中，使用的最多的参数就是url和data。

3.1.2 简单抓取网页

下面来看一个简单的示例，使用urllib.request.urlopen（）去请求淘宝，并获取到它页面的源代码。

import urllib.request

url = "https://taobao.com"
res = urllib.request.urlopen(url)
html = res.readlines()         #获取到页面的源代码
for i in range(0,len(html)):
        print(html[i])    #返回获取页面对象的信息

得到的结果如下
在这里插入图片描述
通过上面的示例就可以看到，使用urllib.request.urlopen（）方法，传入网址就可以得到它的网页源码。

3.1.3 设置请求超时

有时，在访问网页时常常会遇到这种情况，因为某些原因，如自己的计算机网络慢或对方网站服务器压力大崩溃等，导致在请求时迟迟没有响应。同样的在程序中去请求时也会遇到这样的问题。因此，可以手动设置超时时间。当请求超时，可以采取进一步的措施，如直接丢弃该请求或再请求一次。为了应对这个问题，在urllib.request.urlopen（）中可以通过timeout参数设置超时时间。

eg.通过下面的代码可以看到，我们只要在url后再加上一个timeout参数并设置它的值，如果超过了1秒就可以舍弃它或重新尝试访问。

import urllib.request

url = "https://taobao.com"
res = urllib.request.urlopen(url,timeout=1) #设置超时时间为1秒
html = res.readlines()         #获取到页面的源代码
for i in range(0,len(html)):
        print(html[i])    #返回获取页面对象的信息

3.1.4 使用data参数提交数据

前面介绍的API中已提到过除了可以传递url和timeout(超时时间）外，还可以传递其他的内容，如data。data参数是可选的，如果要添加data，需要它是字节流编码格式的内容，即bytes类型，通过bytes（）函数可以进行转换，另外，如果传递了data参数，那么它的请求方式就不再是GET方式，而是POST方式。下面看一下如何传递这个参数。
通过下面的示例代码可以看到，data需要被转码成字节流。而data是一个字典，需要使用urllib.parse.urlencode（）将字典转换为字符串，再使用bytes()函数转换为字节流。最后使用 urlopen（）发起请求，请求是模拟用POST方式提交表单数据。

import urllib.request
import urllib.parse

data=bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
response=urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

运行后控制台会输出

b'{\n  "args": {}, \n  "data": "", \n  "files": {},
 \n  "form": {\n    "word": "hello"\n  },
 \n  "headers": {\n    "Accept-Encoding": "identity", 
 \n    "Content-Length": "10", 
 \n    "Content-Type": "application/x-www-form-urlencoded", 
 \n    "Host": "httpbin.org", 
 \n    "User-Agent": "Python-urllib/3.8", 
 \n    "X-Amzn-Trace-Id": "Root=1-6113d727-1ffd66d93f972dca74dabe89"\n  }, 
 \n  "json": null, 
 \n  "origin": "182.104.48.239", 
 \n  "url": "http://httpbin.org/post"
 \n}\n'

3.1.5 Request

通过3.1.1小节介绍的urlopen0方法可以发起简单的请求，但它的几个简单的参数并不足以构建一个完整的请求。如果请求中需要加入headers（请求头）、指定请求方式等信息，那么就可以利用更强大的Request类来构建一个请求。下面看一下Request的构造方法。

class Request:

    def __init__( 
    			url, 
    			data=None,
    			headers={},
                origin_req_host=None, 
                unverifiable=False,
                method=None
                )

url参数是请求链接，它是必选参数，其他的都是可选参数
data参数与urlopen（）中的data参数用法相同
headers参数是指定发起的HTTP请求的头部信息。headers是一个字典，它除了在Request中添加外，还可以通过调用Request实例的add_header()方法来添加请求头。
origin_req_host参数指的是请求方的host名称或IP地址
unverifiable参数表示这个请求是否是无法验证的，默认值是False。意思也就是说用户没有足够权限来选择接收这个请求的结果。例如，我们请求一个HTML文档中的图片，但是我们没有自动抓取图像的权限，我们就要将unverifiable的值设成True。
method参数指的是发起的HTTP请求的方式，有GET、POST、DELETE和PUT等。

3.1.6 简单使用Request

了解了Request参数后，下面就来简单地使用它请求一下http:😕/tieba.baidu.com(百度贴吧)这个网址。需要注意的是，使用Request伪装成浏览器发起HTTP请求，如果不设置headers中的User-Agent，默认的User-Agent是Python-urllib/3.5。因为可能一些网站会将该请求拦截，所以需要伪装成浏览器发起请求。例如，使用的User-Agent为Chrome浏览器。运行以下代码，结果如图所示：

import urllib.request

url = "http://tieba.baidu.com"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/'
                '537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
print(response.read().decode('GBK'))

在这里插入图片描述
这里涉及的“UserAgent”这个头部信息的获取，可以使用谷歌浏览器随便打开一个网站，然后按【F12】键打开调试界面，切换到【Network】选项卡刷新页面，随意选择一个请求，即可找到需要的“User-Agent”，将其复制过来就可以了。

3.1.7 Request高级方法

如果需要在请求中添加代理、处理请求的Cookie，那么就需要用到Handler和OpenerDirector两个知识点。

1. Handler

Handler即处理者、处理器，能处理请求（HTTP、HTTPS、FTP等）中的各种事情。Handler的具体实现是urllib.request.BaseHandler类。urllib.request.BaseHandler类是所有其他Handler的基类，其提供了最基本的Handler方法，如default_open()、protocol_request()等。继承BaseHandler类的Handler子类有很多，这里列举几个比较常见的类。

ProxyHandler：为请求设置代理
HTTPCookieProcessor：处理HTTP请求中的Cookie
HTTPDefaultErrorHandler：处理HTTP响应错误
HTTPRedirectHandler：处理HTTP重定向
HTTPPasswordMgr：用于管理密码，它维护了用户名密码的表
HTTPBasicAuthHandler：用于登录认证，一般和HTTPPasswordMgr结合使用

2.OpenerDirector

OpenerDirector，也可以称为Opener。之前用过的urlopen()方法,实际上就是urllib提供的一个Opener。那么Opener和Handler又有什么关系呢？Opener对象是由build_opener（handler）方法创建出来的。创建自定义的Opener，就需要使用install_opener(opener)方法。值得注意的是，install_opener实例化会得到一个全局的OpenerDirector对象。

3.1.8 使用代理

了解了Opener和Handler后，接下来就通过示例来深入学习——为HTTP请求设置代理。有些网站做了浏览频率限制，如果请求频率过高，该网站会封IP，禁止我们的访问，所以就需要使用代理来突破这个枷锁。

下面来看一个示例

import urllib.request

url = "http://tieba.baidu.com"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/'
                '537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
proxy_handler=urllib.request.ProxyHandler({
    'http':'172.12.24.45:8080',
    'https':'120.34.5.46:8080'
})
opener=urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)

request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
print(response.read().decode('GBK'))

通过以上示例代码可以看到，调用ProxyHandler方法就可以设置代理，模拟成多个不同的客户，成功“欺骗”网站，获取了数据。

推荐两个代理IP提供商的地址：

http.zhiliandaili.cn
www.etdaili.com

3.1.9 认证登录

有些网站需要携带账号和密码进行登录后才能继续浏览网页。遇到这样的网站，就需要用到认证登录。首先要使用HTTPPasswordMgrWithDefaultRealm()实例化一个账号密码管理对象；然后使用add_password()函数添加账号和密码；接着使用HTTPBasicAuthHandler()得到Handler；再使用build_opener()获取Opener对象；最后使用Opener的open()函数发起请求。下面以携带账号和密码请求登录百度贴吧为例，代码如下：

import urllib.request

url = "http://tieba.baidu.com"
user='test_user'
password='test_password'
pwdmgr=urllib.request.HTTPPasswordMgrWithDefaultRealm()
pwdmgr.add_password(None,url,user,password)
auth_handler=urllib.request.HTTPBasicAuthHandler(pwdmgr)
opener=urllib.request.build_opener(auth_handler)
response=opener.open(url)
print(response.readlines().decode('GBK'))

3.1.10 Cookie设置

如果请求的页面每次都需要身份验证，那么就可以使用Cookie来自动登录，免去重复登录验证的操作。获取Cookie需要使用http.cookiejar.CookieJar()实例化一个Cookie对象，再用urllib.requestHTTPCookieProcessor构建出Handler对象，最后使用Opener的Open函数即可。下面以获取请求百度贴吧的Cookie并保存到文件中为例，代码如下：

import urllib.request
import http.cookiejar

url = "http://tieba.baidu.com"
fileName='cookie.txt'

cookie=http.cookiejar.CookieJar()
handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open(url)

f=open(fileName,'a')
for item in cookie:
    f.write(item.name+"="+item.value+'\n')
f.close()

3.1.11 HTTPResponse

从前面的例子可知，使用 urllib.request.urlopen()或 opener.open(url)返回结果是一个http.client.HTTPResponse 对象。http.client.HTTPResponse 对象包含 msg、version、status、reason、debuglevel、closed等属性及 read0、readinto0、getheader(name)、getheaders()、fileno()等函数。

3.1.12 错误解析

发起请求难免会出现各种异常，因此就需要对异常进行处理，异常处理主要用到两个类：urllib.error.URLError和urllib.error.HTTPError

1.URLError

URLError是urllib.error异常类的子类，可以捕获由urllib.request产生的异常。它具有一个属性reason，即返回错误的原因。捕获URL异常的示例代码如下：

import urllib.request
import urllib.error

url="http://www.google.com"
try:
    response=urllib.request.urlopen(url)
except urllib.error.URLError as e:
    print(e.reason)

2.HTTPError

HTTPError是UEKRrror的子类，专门处理HTTP和HTTPS请求的错误。它具有以下3个属性

code：HTTP请求返回的状态码；
renson：与基类用法一样，表示返回错误的原因
headers:HTTP请求返回的响应头信息。

获取HTTP异常的示例代码（输出了错误状态码、错误原因、服务器响应头）如下：

import urllib.request
import urllib.error

url="http://www.google.com"

try:
    response=urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print('code'+e.code+'\n')
    print('reason' + e.reason + '\n')
    print('headers' + e.headers + '\n')

3.2 requests

Python爬虫中除了前面讲到的urllib外，还有一个用的比较多的HTTP请求库requests。这个库也是一个常用的用于HTTP请求的模块，它使用Python语言编写，可以方便地对网页进行爬取，是学习Python爬虫的较好的HTTP请求模块。本节将对它的基本使用方法进行讲解。

3.2.1 requests模块的安装

Python3默认没有安装requests库，可以打开命令行窗口输入

pip install requests

我因为之前学数据分析可视化的时候，为了方便安装了Anaconda ，这里面集合了市面上大部分常用的库，也比较方便
请添加图片描述

3.2.2 requests模块的使用方法介绍

在使用requests库之前，先来看一下它有哪些方法。requests库的7个主要方法如下：

方法	解释
requests.request ()	构造一个请求，支持以下各种方法
requests.get ()	获取HTML的主要方法
requests.head ()	获取HTML头部信息的主要方法
requests.post ()	向HTML网页提交POST请求的方法
requests.put()	向HTML网页提交PUT请求的方法
requests.patch ()	向HTML提交局部修改的请求
requests.delete()	向HTML提交删除请求

3.2.3 requests.get()

requests.get()方法是常用的方法之一，通过该方法可以了解到其他的方法，使用方法如下面的示例代码：

res=requests.get(url,params,**kwargs)

url:需要爬取的网站地址
params：URL中的额外参数，字典或字节流格式，为可选参数
**kwargs：12个控制访问的参数

下面先来介绍 **kwargs，它的参数如下表所示：

参数名称	描述
params	字典或字节序列，作为参数增加到URL中，使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到URL中
data	字典、列表或元组的字节的文件，作用是向服务器提交资源，作为request的内容，与params不同的是，data提交的数据并不放在URL链接中，而是放在URL链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象
headers	字典是HTTP的相关语，对应了向某个URL访问时所发起的HTTP的头字段，可以用这个字段来定义HTTP的访问的HTTP头，可以用来模拟任何想模拟的浏览器来对URL发起访问。例如:hd ={‘user-agent’:‘Chrome/10’} r=requests.request(‘POST’,‘http://python123.io/ws’,headers=hd)
json	JSON格式的数据，json是HTTP中经常使用的数据格式，作为内容部分可以向务器提交。例如：kv={‘key1’:‘value1’} r=requests.request(‘POST’,‘http://python123.io/ws’,json=kv)
cookies	字典或CookieJar，指的是从HTTP中解析Cookie
auth	元组，用来支持HTTP认证功能
files	字典，是用来向服务器传输文件时使用的字段。例如： fs ={‘files’:open(‘data.txt’,‘rb’)}
timeout	用于设定超时时间，单位为秒，当发起一个GET请求时可以设置一个tinmeout时间，如果在timeout时间内请求内容没有返回，将产生一个timeout的异常
proxies	字典，用来设置访问代理服务器
allow_redirects	开关，表示是否允许对URL进行重定向，默认为True
stream	开关，指是否对获取内容进行立即下载，默认为True
verify	开关，用于认证SSL证书，默认为True
cert	用于设置保存本地SSL证书路径

前面示例中的代码是构造一个服务器请求resquests，返回一个包含服务器资源的Response对象。其中Response对象有以下属性：

属性	说明
status_code	HTTP请求的返回状态，若为200则表示请求成功
text	HTTP响应内容的字符串形式，即返回的页面内容
encoding	从HTTP header中猜测的相应内容编码方式
apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
content	HTTP响应内容的二进制形式

import requests

r=requests.get("http://www.baidu.com")
print(r.status_code)
print(r.encoding)
print(r.apparent_encoding)
print(r.text)

运行结果如下图
在这里插入图片描述

3.2.4 requests库的异常

requests库有时会产生异常，如连接错误、HTTP错误异常、重定向异常、请求URL超时异常等。这里可以用r.raise_for_status()语句来捕捉异常，该语句在方法内部判断r.status_code是否等于200，如果不等于，则抛出异常，示例代码如下：

import requests
try:
    r = requests.get("http://www.baidu.com",timeout=30) #设置请求超时时间为30秒
    r.raise_for_status()  #如果状态码不是200，则引发异常
    r.encoding=r.apparent_encoding  #配置编码
    print(r.text)
except:
    print("产生异常！")

3.2.5 requests.head()

通过requests.head()方法，可以获取请求地址的header头部信息，示例代码如下：

import requests

r=requests.head("http://httpbin.org/get")
print(r.headers)

运行结果如下图：
在这里插入图片描述

3.2.6 requests.post()

requests.post()方法一般用于表单提交，向指定的URL提交数据，可提交字符串、字典、文件等数据，示例代码如下：

import requests

#向url post一个字典
payload={"key1":"value1","key2":"value2"}
r=requests.post("http://httpbin.org/post",data=payload)
print(r.text)
#向url post一个字符串，自动编码为data
r=requests.post("http://httpbin.org/post",data="hello world")
print(r.text)

运行结果如下图所示：
在这里插入图片描述

3.2.7 requests.put()和requests.patch()

requests.patch()和requests.put()类似，两者不同的是：当patch时，仅需提交需要修改的字段；当用put时，必须将20个字段一起提交到URL，未提交字段将会被删除；patch的优点是节约网络带宽。示例代码如下：

import requests

payload={"key1":"value1","key2":"value2"}
r=requests.put("http://httpbin.org/post",data=payload)
payload={"key1":"value1","key2":"value2"}
r=requests.patch("http://httpbin.org/post",data=payload)

关于Python爬虫中常用的两个网络请求库本文暂讲到这，后面怎么在实际中使用它们编写爬虫爬取数据将会在后面的内容中讲到。

3.3 re正则使用

正则表达式是一个特殊的字符序列，它能帮助用户便捷地检查一个字符串是否与某种模式匹配。在爬虫中我们经常会使用它从抓取到的网页源码或接口返回内容中匹配提取我们想要的数据。Python自1.5版本增加了re模块，它提供Perl风格的正则表达式模式。re模块使Python语言拥有全部的正则表达式功能。compile函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
re模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串作为它们的第一个参数。本节主要介绍Python中常用的正则表达式处理函数。

3.3.1 re.match函数

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功，那么match()就返回None。re.match的语法格式如下：

re.match(pattern,string,flags=0)

参数说明如下：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串
flags	标志位，用于控制正则表达式的匹配方式，如是否区分大小写、是否多行匹配等

匹配成功re.match返回一个匹配的对象，否则返回None。还可以使用group(num)或groups()匹配对象函数来获取匹配表达式，如下表所示：

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group()可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组
groups()	返回一个包含所有小组字符串的元组，从1到所含的小组号

了解了以上的内容，下面来看一个示例，代码如下：

import re

print(re.match('www','www.baidu.com').span())   #在起始位置匹配
print(re.match('com','www.baidu.com'))      #不在起始位置匹配

运行后控制台会输出：

(0, 3)
None

获取匹配表达式的示例代码如下：

import re

line="Cats are smarter than dogs"
matchObj=re.match(r'(.*)are(.*).*',line)

if matchObj:
    print("matchObj.group():",matchObj.group())
    print("matchObj.group(1):", matchObj.group(1))
    print("matchObj.group(2):", matchObj.group(2))
else:
    print("No match!!!")

运行后控制台会输出：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):  smarter than dogs

3.3.2 re.search函数

re.search用于扫描整个字符串并返回第一个成功的匹配。语法格式如下：

re.search(pattern,string,flags=0)

re.search也有3个参数，这三个参数的作用与re.match方法中的参数是一样的，需要注意的是，flags的参数可写可不写，不写也能正常返回结果，原因是它的底层给了默认值。
示例代码如下：

import re

print(re.search('www','www.runoob.com').span())     #在起始位置匹配
print(re.search('com','www.runoob.com').span())     #不在起始位置匹配

运行后控制台输出

(0, 3)
(11, 14)

可以看到，匹配成功，返回一个元组，该元组包含匹配内容的开始位置和结束位置。

3.3.3 re.match和re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。
示例代码如下：

import re

line="Cats are smarter than dogs"

matchObj=re.match(r'dogs',line)
if matchObj:
    print("match-->matchObj.group():",matchObj.group())
else:
    print("No match!")

matchObj=re.search(r'dogs',line)
if matchObj:
    print("search-->matchObj.group():",matchObj.group())
else:
    print("No match!")

运行后控制台输出：

No match!
search-->matchObj.group(): dogs

从运行结果中可以看到，使用 re.match时，它会从“Cats are smarter than dogs”这个字符的开始位置开始匹配，这里开始位置的内容“Cats”并不满足它的要求，它从这停止了匹配，所以返回了未匹配到。反之，re.search从开始位置没匹配到，会继续往后匹配，直到把“Cats are smarter than dogs”这个字符串匹配完，这里在字符串的最后结尾位置找到了它要匹配的内容，所以返回了匹配到的数据。

3.3.4 检索和替换

当需要替换某段文字的内容时，例如，有一句话：“等忙完这一阵，就可以接着忙下一阵了”。想把“忙”字替换成“过”，这时该如何去实现替换呢？Python中的re模块提供了re.sub，可用于替换字符串中的匹配项。通过re.sub就可以将字符串中满足匹配条件的内容全部替换，re.sub的语法格式如下：

re.sub(pattern,repl,string,count=0,flags=0)

可以看出，re.sub有以下几个比较重要的参数。

pattern：正则中的模式字符串
repl：替换的字符串，也可为一个函数
string：要被查找替换的原始字符串
count：模式匹配后替换的最大次数，默认为0，表示替换所有的匹配

示例代码如下：

import re

st="忙完这一阵，就可以接着忙下一阵了"

#替换忙字
new_st=re.sub('忙','过',st)
print("After replacing:",new_st)

运行后控制台输出：

After replacing: 过完这一阵，就可以接着过下一阵了

3.3.5 re.compile函数

re.compile用于编译正则表达式，生成一个正则表达式Pattern对象，使match()和search()函数使用。语法如下：

re.compile(pattern[,flags])

参数说明如下：

pattern：一个字符串形式的正则表达式
flags：可选参数，表示匹配模式，如忽略大小写、多行模式等，具体参数如下：

re.I：忽略大小写
re.L：表示特殊字符集\w、\W、\b、\B、\s、\S依赖于当前的环境
re.M：多行模式
re.S：即为 . 并包括换行符在内的任意字符（. 不包括换行符）
re.U：表示特殊字符集\w、\W、\b、\B、\s、\S依赖于Unicode字符属性数据库
re.X：为了增加可读性，忽略空格和#后面的注释

下面来看一个示例：

import re

pattern=re.compile('\d+')   #用于匹配至少一个数字
m1=pattern.match('one12twothree34four')     #查找头部，没有匹配
m2=pattern.match('one12twothree34four',2,10)     #从’e‘的位置开始匹配，没有匹配
m3=pattern.match('one12twothree34four',3,10)     #从‘1’的位置开始匹配，匹配成功

print(m1)
print(m2)
print(m3)
print(m3.group(0))
print(m3.start(0))
print(m3.end(0))
print(m3.span(0))

运行结果：

None
None
<re.Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)

在上面的例子中，当匹配成功时返回一个Match对象，其中group([group1,…])方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用group()或group(0)；start([group])方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引)，参数默认值为0；end([group])方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1)，参数默认值为0；span([group])方法返回(start(group),end(group))。
再来看一个示例

import re

pattern=re.compile('([a-z]+) ([a-z]+)',re.I)
m=pattern.match('Hello World Wide Web')

print(m)
print(m.group(0))   #返回匹配成功的整个子串
print(m.span(0))    #返回匹配成功的整个子串的索引
print(m.group(1))   #返回第一个分组匹配成功的整个子串
print(m.span(1))    #返回第一个分组匹配成功的整个子串的索引
print(m.group(2))   #返回第二个分组匹配成功的整个子串
print(m.span(2))    #返回第二个分组匹配成功的整个子串的索引
print(m.groups())   #等价于(m.group(1),m.group(2),...)
print(m.group(3))   #不存在第三个分组

得到的结果如下：

    print(m.group(3))   #不存在第三个分组
IndexError: no such group
<re.Match object; span=(0, 11), match='Hello World'>
Hello World
(0, 11)
Hello
(0, 5)
World
(6, 11)
('Hello', 'World')

3.3.6 findall函数

findall用于在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。findall的语法格式如下：

findall(string[,pos[,endpos]])

参数说明如下：

string：待匹配的字符串
pos：可选参数，指定字符串的起始位置，默认为0
endpos：可选参数，指定字符串的结束位置，默认为字符串的长度

下面来看一个例子，查找字符串中的所有数字：

import re

pattern=re.compile('\d+')
result1=pattern.findall('runoob 123 google 456')
result2=pattern.findall('runoob 123 google 456',0,10)

print(result1)
print(result2)

运行结果如下：

['123', '456']
['123']

陈Nicole

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫开发——第三章：基本库的使用

第三章基本库的使用3.1 urllib3.1.1 urlopen( )3.1.2 简单抓取网页3.1.3 设置请求超时3.1.4 使用data参数提交数据3.1.5 Request3.1 urllib这节主要讲解Python3中的urllib库的用法，urllib是Python标准库中用于网络请求的库。该库有4个模块，分别是urllib.request、urllib.error、urllib.parse、urllib.robotparser。其中urllib.request和urllib.error两
复制链接

扫一扫