网络爬虫：Requests库入门

最新推荐文章于 2024-08-09 23:34:20 发布

MilkLeong

最新推荐文章于 2024-08-09 23:34:20 发布

阅读量3.1k

点赞数 5

分类专栏： Python网络爬虫学习笔记文章标签： python 网络

本文链接：https://blog.csdn.net/MilkLeong/article/details/105429825

版权

Python网络爬虫学习笔记专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文为北理嵩天老师《网络爬虫与信息提取》学习笔记。
一、Requests库简介一
 二、爬取网页的通用代码框架
 三、HTTP协议及Requests库方法
 3.1HTTP协议：
3.2Requests库主要方法解析：
（一）requests.request(method,url,**kwargs)
（二）requests.get(url,params=None,**kwargs)
（三）requests.head(url,**kwargs)
（四）requests.post(url,data=None,json=None,**kwargs)
（五）requests.put(url,data=None,**kwargs)
（六）requests.patch(url,data=None,**kwargs)
（七）requests.delete(url,**kwargs)

一、Requests库简介

Requests库主要有七个方法：
1.requests.request()
构造一个请求，支撑以下各方法的基础方法（以下的方法都是通过调用该方法实现的）
2.requests.get()
获取HTML网页的主要方法，对应于HTTP的GET
3.requests.head()
获取HTML网页头信息的方法，对应于HTTP的GET
4.requests.post()
向HTML网页提交POST请求的方法，对应于HTTP的POST
5.requests.put()
向HTML网页提交PUT请求的方法，对应于HTTP的PUT
6.requests.patch()
向HTML网页提交局部修改请求，对应于HTTP的PATCH
7.requests.delete()
向HTML页面提交删除，对应于HTTP的DELETE

*requests.get(url,params=None,*kwargs)
其参数大致如下：
(1) url：拟获取页面的url链接
(2) params：url中的额外参数，字典或字节流格式，可选
(3) **kwargs：12个控制访问的参数，可选

Requests库中两个最重要的对象即可通过requests.get()方法来认识：
r=requests.get(url)
(1) requests.get(url)：构造一个向服务器请求资源的Request对象
(2) r：requests.get(url)的返回内容，返回一个包含服务器资源的Response对象

>>> type(r)
<class 'requests.models.Response'>

Response对象包含服务器返回的所有信息，同时它也包含了我们去向服务器请求的Request信息

Response对象常用的五个属性
(1) r.status_code： HTTP请求的返回状态，200表连接成功，404表示失败
(2) r.text： HTTP相应内容的字符串形式，即url对应的页面内容
(3) r.encoding：从HTTP header中猜测的响应内容编码方式
(4) r.apparent_encoding ：从内容中分析出的响应内容编码方式（备选编码方式）
(5) r.content： HTTP响应内容的二进制形式（从网页中获得的图片是以二进制形式存储的，可通过此属性还原图片）

r.apparent_encoding和r.encoding之间的区别需要弄清，可通过下面一个例子来看看：

>>> import requests
>>> r=requests.get('https://www.baidu.com') #获取对应的HTTP页面
>>> r.status_code #查看请求的返回状态
200
>>> r.text #查看获取的页面内容

输出的内容大致如下：
在这里插入图片描述
对于人脑的理解机制来说，这里面几乎没有什么有价值的内容，我们网络爬虫肯定不是为了抓这些东西。
这时，需查看一下网页内容的编码：

>>> r.encoding #查看编码
'ISO-8859-1'
>>> r.apparent_encoding #查看从内容中分析出的响应内容的编码方式
'utf-8'

r.apparent_encoding得到的编码与 r.encoding得到的编码并不一致，这是因为r.encoding并没有分析网页内容，它只是根据headers中的信息，猜测网页的编码方式，如果headers中不存在charset，则认为编码为ISO-8859-1（但这样的编码并不能解析中文）。

>>> r.headers #返回GET请求获得页面的头部信息
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Fri, 10 Apr 2020 02:38:12 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:24:33 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

而r.apparent_encoding是根据网页内容来分析编码方式，它比r.encoding更加准确。

>>> r.encoding='utf-8' #替换原来的编码方式
>>> r.text #再输出，就能看到中文字符

将r.apparent_encoding得到的编码方式赋给r.encoding，便可以读到人类可以理解的内容了。
在这里插入图片描述

二、爬取网页的通用代码框架

代码框架即一组代码，它可以准确地爬取网页的内容。
如果单用requests.get()不一定能抓取，因为网络连接有风险，异常处理很重要。
Requests库支持六种常用的连接异常
(1) requests.ConnectionError：网络连接错误异常，如DNS查询失败、拒绝连接等
(2) requests.HTTPError：HTTP错误异常
(3) requests.URLRequired：URL缺失异常
(4) requests.TooManyRedirects：超过最大重定向次数，产生重定向异常
(5) requests.ConnectTimeout：连接远程服务器超时异常
(6) requests.Timeout：请求URL超时，产生超时异常（发出请求到获得内容的整个过程的超时异常）

r.raise_for_status() 方法
由Response提供的一个方法，专门处理异常的方法，判断r.status_code的状态码，如果不是200，产生异常requests.HTTPError

以下为使用r.raise_for_status()方法的爬虫通用代码框架：

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30) #请求一个url链接
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding #替代r.encoding，使得返回内容的解码是正确的
        return r.text
    except:
        return "产生异常"

if __name__ =="__main__":
    url="https://www.baidu.com"
    print(getHTMLText(url))

三、HTTP协议及Requests库方法

理解HTTP协议有助于更好地理解Requests库中的方法。

3.1HTTP协议：

HTTP：Hypertext Transfer Protocol 超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
(1) “请求与响应”模式：用户发起请求，服务器做相关响应；
(2) “无状态”：第一次请求与第二次请求间并没有相关的关联；
(3) “应用层协议”：该协议工作在HTTP协议之上

HTTP协议一般采用URL作为定位网络资源的标识
URL格式： https://host[:port][path]
(1) host：合法的Internet主机域名或IP地址
(2) port：端口号，缺省端口为80
(3) path：请求资源的路径
例如：
https://www.bit.edu.cn 北理校园网首页
https://220.181.111.188/duty 这样一台IP主机上duty目录下的相关资源

HTTP URL的理解：
URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作主要有6个
(1) GET：请求获取URL位置的资源
(2) HEAD：请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
(3) POST：请求向URL位置的资源后附加新的数据
(4) PUT：请求向URL位置存储一个资源，覆盖原URL位置的资源
(5) PATCH：请求局部更新URL位置的资源，即更改该处资源的部分内容
(6) DELETE：请求删除URL位置存储的资源
这六个操作即为Requests提供的函数所对应的主要功能。

这六个方法可以分三类：

获得资源的方法主要是GET和HEAD，GET方法获得全部资源，HEAD方法获得资源的头部信息
如果想把自己的资源放到URL位置的资源上，可以使用PUT、POST和PATCH方法
如果想删掉URL位置上的资源可以用DELETE方法

PATCH和PUT的区别：
假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段，用户修改了UserName，其他不变，在对应URL位置更新：
(1) 采用PATCH，仅向URL提交UserName的局部更新请求。
(2) 采用PUT，必须将所有20个字段一并提交到URL，否则未提交的信息会被新的提交覆盖。
比较之下，PATCH可节省网络资源的带宽。

HTTP协议通过URL对资源做定位，通过这六个常用的方法对资源进行管理，每次操作都是独立无状态的，前后两次操作并没有关系。在HTTP协议的世界，网络通道和服务器都是黑盒子，它能看到的就是URL链接，以及对URL链接的操作。

head方法可用很少的网络流量，获得网络资源的概要信息：

>>> r=requests.head('http://httpbin.org/get')
>>> r.headers #展示头部信息的内容
{'Date': 'Fri, 10 Apr 2020 12:38:40 GMT', 'Content-Type': 'application/json', 'Content-Length': '308', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
>>> r.text #展示全部信息，输出空
''

POST方法会根据用户提交内容的不同，在服务器上会做出相关的整理。
当我们向URL去POST一个字典或一个键值对时，键值对会默认地被存储到表单的字段下：

>>> payload={'key1':'value1','key2':'value2'}
>>> r=requests.post('http://httpbin.org/post',data=payload) #向URL添加信息
>>> print(r.text)

在这里插入图片描述

如果提交字符串，它被存到了data的字段下：

>>> r=requests.post('http://httpbin.org/post',data='ABC')
>>> print(r.text)

在这里插入图片描述

PUT方法与POST方法类似，只不过它能将原有的数据覆盖的：

>>> r=requests.put('http://httpbin.org/put',data=payload) #向URL添加信息
>>> print(r.text)

在这里插入图片描述

3.2Requests库主要方法解析：

（一）requests.request(method,url,**kwargs)

(1) method：请求方式，对应get/put/post等7种
r=requests.requests(‘GET’,url,**kwargs)
r=requests.requests(‘HEAD’,url,**kwargs)
r=requests.requests(‘POST’,url,**kwargs)
r=requests.requests(‘PUT’,url,**kwargs)
r=requests.requests(‘PATCH’,url,**kwargs)
r=requests.requests(‘delete’,url,**kwargs)
r=requests.requests(‘OPTIONS’,url,**kwargs)：向服务器获取一些服务器和客户端能够打交道的参数，但与获取资源并不直接相关

(2) url：拟获取页面的url链接

**(3) kwargs：控制访问的参数，共13个，均为可选项
1.params：字典或字节序列，作为参数增加到url中

>>> import requests
>>> kv={'key1':'value1','key2':'value2'}
>>> r=requests.request('GET','https://www.baidu.com',params=kv)
>>> print(r.url)
https://www.baidu.com/?key1=value1&key2=value2

字典里的值加在了问号后面，即通过这样一些参数可以把一些键值对增加到url中，使得再次访问时，不止访问这个资源，同时带入一些参数，并根据这些参数筛选一些数据返回回来。

2.data：字典、字节序列或文件对象，作为Request的内容

>>> import requests
>>> kv={'key1':'value1','key2':'value2'}
>>> r=requests.request('POST','https://www.baidu.com',data=kv)
>>> body="主体内容"
>>> r=requests.request('POST','https://www.baidu.com',data=body.encode('utf-8'))

data中的内容（字符串、键值对等）会被存到URL链接所对应的位置

3.json：JSON格式的数据，作为Requests的内容
JSON格式在HTTP和HTML相关的web开发中非常常见，是HTTP协议最经常使用的数据格式，它也可以作为内容向服务器提交

>>> kv={'key1':'value1','key2':'value2'}
>>> r=requests.request('POST','https://www.baidu.com',json=kv)

4.headers：字典，HTTP定制头
可以用该字段定制某个访问URL的HTTP协议的头

>>> r=requests.request('https://www.baidu.com.cn',headers=headers)
>>> r=requests.request('https://www.baidu.com.cn',headers=headers)

将定制的值赋给headers，此时headers再去访问服务器，服务器看到的user-agent字段即为Chrome/10（Chrome浏览器的第十个版本）

5.cookies：字典或CookieJar，Request中的cookie （为Requests库的高级功能）
（从HTTP协议中解析cookies）

6.auth：元组类型，支持HTTP认证功能（为Requests库的高级功能）

7.files：为字典类型，是向传输文件时使用的字段

>>> fs={'file':open('C:\\Users\\yuwei\\Desktop\\lala.txt','rb')}
>>> r=requests.request('POST','https://www.baidu.com',files=fs)

这样的方法用于向某个链接提交某个文件。

8.timeout：设定超时时间，秒为单位
在进行GET请求时可设定一个timeout时间，如果在timeout时间内，我们的请求内容没有返回回来，那么它将产生timeout的异常。

>>> r=requests.request('GET','https://www.baidu.com',timeout=10)

9.proxies：字典类型，设定访问代理服务器，可以增加登录认证

>>> pxs={'http':'http://user:pass@10.10.10.1:1234',\
	 'https':'https://10.10.10.1:4321'}
	 
>>> r=requests.request('GET','http://www.baidu.com',proxies=pxs)