Requests入门

W_chuanqi

已于 2022-04-14 10:31:11 修改

阅读量832

点赞数 2

分类专栏： Python爬虫 # Python库文章标签： python

于 2022-04-14 10:17:22 首次发布

本文链接：https://blog.csdn.net/W_chuanqi/article/details/124129152

版权

Python爬虫同时被 2 个专栏收录

25 篇文章 5 订阅

订阅专栏

Python库

8 篇文章 4 订阅

订阅专栏

前言：

爬虫三大库——Requests、Lxml、BeautifulSoup
Requests库的官方文档指出：让HTTP服务于人类。Requests库的作用就是请求网站获取网页数据的。今天我们来了解一下Requests库

如果感觉博主的文章还不错的话，还请关注、点赞、收藏三连支持一下博主哦

文章目录

一、Requests安装

二、Requests库的两个重要对象

1. Response对象

2.Request对象

三、HTTP协议

1.HTTP概念

2.HTTP协议对资源的操作

3.HTTP协议与Requests库

四、 Requests库的主要方法解析

1.requests.request(method, url, **kwargs)

2.requests.get(url, params=None, **kwargs)

3.requests.head()

4.requests.post(url, data=None, json=None, **kwargs)

5.requests.put(url, data=None, **kwargs)

6.requests.patch(url, data=None, **kwargs)

7.requests.delete(url, **kwargs)

五、爬取网页的通用代码框架

1.理解Requests库的异常

2.爬取网页的通用代码框

一、Requests安装

Step1.Win平台: “以管理员身份运行”cmd

Step2.执行 pip install requests

这样Requests库就安装成功了

安装成功之后，我们进行一下测试,以访问百度页面为例

二、Requests库的两个重要对象

1. Response对象

Response对象包含服务器返回的所有信息，也包含请求的Request信息

Response 对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

r.status_code，HTTP请求的返回状态，返回200表示连接成功，返回404表示失败（不是200都为失败）

理解 r.encoding和r.apparent_encoding

r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）

r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1，r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式，可以看作是r.encoding的备选

2.Request对象

当引用requests库时会在内部生成Request对象，下面为Requests库的7个主要方法，后面我们会这几个方法进行详细介绍

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

三、HTTP协议

我们要从网页中爬取数据，要理解HTTP协议的相应原理

1.HTTP概念

HTTP ， Hypertext Transfer Protocol ，超文本传输协议

HTTP 是一个基于“请求与响应”模式的、无状态的应用层协议

HTTP 协议采用 URL 作为定位网络资源的标识， URL 格式如下：

http://host[:port][path]

host: 合法的Internet主机域名或IP地址
port: 端口号，缺省端口为80
path: 请求资源的路径

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL 的理解：

URL 是通过 HTTP 协议存取资源的 Internet 路径，一个 URL 对应一个数据资源

2.HTTP协议对资源的操作

理解PUT和PATCH的区别

假设 URL 位置有一组数据 UserInfo ，包括 UserID 、 UserName 等 20 个字段

需求：用户修改了 UserName ，其他不变

• 采用 PATCH ，仅向 URL 提交 UserName 的局部更新请求

• 采用 PUT ，必须将所有 20 个字段一并提交到 URL ，未提交字段被删除PATCH的最主要好处：节省网络带宽

3.HTTP协议与Requests库

HTTP协议方法	Requests库方法	功能一致性
GET	requests.get()	一致
HEAD	requests.head()	一致
POST	requests.post()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

四、 Requests库的主要方法解析

1.requests.request(method, url, **kwargs)

这个方法其实就是Requests库的核心方法

Requests虽然有7个主要的方法，但是其余几个都是由request()方法进行封装的

下面是get()方法的定义函数

语法格式：

requests.request(method, url, **kwargs)

method : 请求方式，对应get/put/post等7种
url : 拟获取页面的url链接
**kwargs: 控制访问的参数，共13个

method:请求方式

r = requests.request( 'GET' , url , **kwargs )

r = requests.request( 'HEAD' , url , **kwargs )

r = requests.request( 'POST' , url , **kwargs )

r = requests.request( 'PUT' , url , **kwargs )

r = requests.request( 'PATCH' , url , **kwargs )

r = requests.request( 'delete' , url , **kwargs )

r = requests.request( 'OPTIONS' , url , **kwargs )

**kwargs: 控制访问的参数，均为可选项

params : 字典或字节序列，作为参数增加到url中
data : 字典、字节序列或文件对象，作为Request的内容
json : JSON格式的数据，作为Request的内容
headers : 字典，HTTP定制头
cookies : 字典或CookieJar，Request中的cookie
auth : 元组，支持HTTP认证功能
files : 字典类型，传输文件
timeout : 设定超时时间，秒为单位
proxies : 字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects : True/False，默认为True，重定向开关
stream : True/False，默认为True，获取内容立即下载开关
verify : True/False，默认为True，认证SSL证书开关
cert : 本地SSL证书路径

params : 字典或字节序列，作为参数增加到url中

>>> kv = { 'key1' : 'value1' , 'key2' : 'value2' }

>>> r = requests . request ( 'GET' , 'http://python123.io/ws' , params = kv )

>>> print(r.url)

http://python123.io/ws?key1=value1&key2=value2

data : 字典、字节序列或文件对象，作为Request的内容

>>> kv = { 'key1' : 'value1' , 'key2' : 'value2' }

>>> r = requests . request ( 'POST' , 'http://python123.io/ws' , data = kv )

>>> body = ' 主体内容 '

>>> r = requests . request ( 'POST' , 'http://python123.io/ws' , data = body )

json : JSON格式的数据，作为Request的内容

>>> kv = { 'key1' : 'value1' }

>>> r = requests . request ( 'POST' , 'http://python123.io/ws' , json = kv )

headers : 字典，HTTP定制头

>>> hd = { 'user‐agent' : 'Chrome/10' }

>>> r = requests . request ( 'POST' , 'http://python123.io/ws' , headers = hd )

cookies : 字典或CookieJar，Request中的cookie

>>> fs = { 'file' : open( 'data.xls' , 'rb' )}

>>> r = requests . request ( 'POST' , 'http://python123.io/ws' , files = fs )

timeout : 设定超时时间，秒为单位

>>> r = requests . request ( 'GET' , 'http://www.baidu.com' , timeout = 10 )

proxies : 字典类型，设定访问代理服务器，可以增加登录认证

>>> pxs = { 'http' : 'http://user:pass@10.10.10.1:1234'

'https' : 'https://10.10.10.1:4321' }

>>> r = requests . request ( 'GET' , 'http://www.baidu.com' , proxies = pxs )

2.requests.get(url, params=None, **kwargs)

使用get()方法我们可以爬取大部分的网页

语法：

requests.get(url, params=None, **kwargs)

url : 拟获取页面的url链接
params : url中的额外参数，字典或字节流格式，可选
**kwargs: 12个控制访问的参数

3.requests.head()

语法

requests.head( url , **kwargs )

url : 拟获取页面的url链接
**kwargs: 12个控制访问的参数

>>> r = requests . head ( 'http://httpbin.org/get' )

>>> r.headers

{'Content‐Length': '238', 'Access‐Control‐Allow‐Origin': '*', 'Access‐

Control‐Allow‐Credentials': 'true', 'Content‐Type':

'application/json', 'Server': 'nginx', 'Connection': 'keep‐alive',

'Date': 'Sat, 18 Feb 2017 12:07:44 GMT'}

>>> r.text

''

4.requests.post(url, data=None, json=None, **kwargs)

语法

requests.post( url , data=None , json=None , **kwargs )

url : 拟更新页面的url链接
data : 字典、字节序列或文件，Request的内容
json : JSON格式的数据，Request的内容
**kwargs: 12个控制访问的参数

向 URL POST 一个字典，自动编码为form （表单）

>>> payload = { 'key1' : 'value1' , 'key2' : 'value2' }

>>> r = requests . post ( 'http://httpbin.org/post' , data = payload )

>>> print(r.text)

{ ...

"form": {

"key2": "value2",

"key1": "value1"

},

}

向 URL POST 一个字符串，自动编码为data

>>> r = requests . post ( 'http://httpbin.org/post' , data = 'ABC' )

>>> print(r.text)

{ ...

"data": "ABC"

"form": {},

}

5.requests.put(url, data=None, **kwargs)

语法

requests.put( url , data=None , **kwargs )

url : 拟更新页面的url链接
data :字典、字节序列或文件，Request的内容
**kwargs: 12个控制访问的参数

>>> payload = { 'key1' : 'value1' , 'key2' : 'value2' }

>>> r = requests . put ( 'http://httpbin.org/put' , data = payload )

>>> print(r.text)

{ ...

"form": {

"key2": "value2",

"key1": "value1"

},

}

6.requests.patch(url, data=None, **kwargs)

语法

requests.patch( url , data=None , **kwargs )

url : 拟更新页面的url链接
data : 字典、字节序列或文件，Request的内容
**kwargs: 12个控制访问的参数

7.requests.delete(url, **kwargs)

语法

requests.delete( url , **kwargs )

url : 拟删除页面的url链接
**kwargs: 12个控制访问的参数

五、爬取网页的通用代码框架

1.理解Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

r.raise_for_status()

如果不是200，产生异常 requests.HTTPError

r.raise_for_status()在方法内部判断 r.status_code 是否等于 200 ，不需要增加额外的if 语句，该语句便于利用 try‐except 进行异常处理

2.爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

W_chuanqi

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
Requests入门

一、Requests安装Win平台: “以管理员身份运行”cmd执行 pip install requests这样Requests库就安装成功了安装成功之后，我们进行一下测试,以访问百度页面为例Requests库的7个主要方法方法说明 requests.request() 构造一个请求，支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HT.
复制链接

扫一扫