python网络请求模块_[ Python Web爬虫注释]请求模块基础,网络,笔记,requests

最新推荐文章于 2022-10-02 10:55:07 发布

weixin_39771351

最新推荐文章于 2022-10-02 10:55:07 发布

阅读量71

点赞数

文章标签： python网络请求模块

本文链接：https://blog.csdn.net/weixin_39771351/article/details/113675457

版权

安装requests模块

我使用的是Anaconda 3，其中自带了requests模块供我们使用。如果没有requests模块的话，只需要以管理员身份打开cmd，输入命令

pip install requests

即可。

requests模块的7个主要方法

方法

说明

requests.request()

构造一个请求，是支撑以下各方法的基础方法

requests.get()

获取HTML网页的主要方法，对应于HTTP的GET

requests.head()

获取HTML网页头信息，对应于HTTP的HEAD

requests.post()

向HTML网页提交POST请求，对应于HTTP的POST

requests.put()

向HTML网页提交PUT请求，对应于HTTP的PUT

requests.patch()

向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.delete()

向HTML网页提交删除请求，对应于HTTP的DELETE

1.requests.request()

语法

requests.request(method, url, **kwargs)

参数说明

(1)

method

：请求方式，包括GET, HEAD, POST, PUT, PATCH, DELETE, OPTIONS。

(2)

url

：拟获取页面的URL链接。

(3)

**kwargs

：控制访问的参数，共13个，均为可选项。

**kwargs参数

说明

params

字典或字节序列，作为参数增加到URL中

data

字典、字节序列或文件对象，作为Request的内容

json

JSON格式的数据，作为Request的内容

headers

字典，HTTP定制头

字典或CookieJar，Request中的cookie

auth

元组，支持HTTP认证功能

files

字典，传输文件

timeout

设定超时时间(单位：秒)

proxies

字典，设定访问代理服务器，可以增加登录认证

allow_redirects

True(默认)或False，重定向开关

stream

True(默认)或False，获取内容立即下载开关

verify

True(默认)或False，认定SSL证书开关

cert

本地SSL证书路径

2.requests.get()

语法

requests.get(url, params=None, **kwargs)

参数说明

(1)

url

：拟获取页面的URL链接。

(2)

params

：URL中的额外参数，字典或字节流格式。

(3)

**kwargs

：12个控制访问的参数。

3.requests.head()

语法

requests.head(url, **kwargs)

参数说明

(1)

url

：拟获取页面的URL链接。

(2)

**kwargs

：12个控制访问的参数。

4.requests.post()

语法

requests.post(url, data=None, json=None, **kwargs)

参数说明

(1)

url

：拟更新页面的URL链接。

(2)

data

：字典、字节序列或文件，Request的内容。

(3)

json

：JSON格式的数据，Request的内容。

(4)

**kwargs

：12个控制访问的参数。

5.requests.put()

语法

requests.put(url, data=None, **kwargs)

参数说明

(1)

url

：拟更新页面的URL链接。

(2)

data

：字典、字节序列或文件，Request的内容。

(3)

**kwargs

：12个控制访问的参数。

6.requests.patch()

语法

requests.patch(url, data=None, **kwargs)

参数说明

(1)

url

：拟更新页面的URL链接。

(2)

data

：字典、字节序列或文件，Request的内容。

(3)

**kwargs

：12个控制访问的参数。

7.requests.delete()

语法

requests.delete(url, **kwargs)

参数说明

(1)

url

：拟删除页面的URL链接。

(2)

**kwargs

：12个控制访问的参数。

requests模块的2个重要对象

Response对象包含服务器返回的所有信息，也包含请求的Request信息。下表是Response对象的属性：

属性

说明

r.status_code

HTTP请求的返回状态，200表示连接成功，404表示失败

r.text

HTTP响应内容的字符串形式，即url对应的页面内容

r.encoding

从HTTP header中猜测的响应内容编码方式

r.appartment_encoding

从内容中分析出的响应内容编码方式(备选编码方式)

r.content

HTTP响应内容的二进制形式

下面针对Response的编码进行说明。

r.encoding

：如果header中不存在charset，则认为编码为ISO-8859-1，

r.text

根据

r.coding

显示网页内容。

r.apparent_encoding

：根据网页内容分析出的编码方式，可以看作是

r.encoding

的备选。

爬取网页的通用代码框架

首先我们要理解requests模块的异常。网络连接是有风险的，所以异常处理很重要。下表是对requests模块的异常的说明：

异常

说明

requests.ConnectionError

网络连接错误异常，如DNS查询失败、拒绝连接等

requests.HTTPError

HTTP错误异常

requests.URLRequired

URL缺失异常

requests.TooManyRedirects

超过最大重定向次数，产生重定向异常

requests.ConnectTimeout

连接远程服务器超时异常

requests.Timeout

请求URL超时，产生超时异常

下面是爬取网页的通用代码框架：

import requests

def getHTMLText(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status() # 如果状态不是200，引发HTTPError异常

r.encoding = r.apparent_encoding

return r.text

except:

return '产生异常'

if __name__ == '__main__':

url = 'http://www.baidu.com'

print(getHTMLText(url))

HTTP协议

HTTP是Hypertext Transfer Protocol的缩写，中文名称为超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

下表是HTTP协议对资源的操作：

方法

说明

GET

请求获取URL位置的资源

HEAD

请求获取URL位置资源的响应消息报告，即获得该资源的头部信息

POST

请求向URL位置的资源后附加新的数据

PUT

请求向URL位置存储一个资源，覆盖原URL位置的资源

PATCH

请求局部更新URL位置的资源，即改变该处资源的部分内容

DELETE

请求删除URL位置存储的资源

通过URL和命令管理资源，操作独立无状态，网络通道及服务器成为了黑盒子。

下面来讨论PATCH和PUT的区别。我们假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。我们的需求是用户修改UserName，其他不变。如果采用PATCH，则仅向URL提交UserName的局部更新请求。如果采用PUT，则必须将所有字段一并提交到URL，未提交字段被删除。PATCH的最主要好处是节省网络带宽。

weixin_39771351

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络请求模块_[ Python Web爬虫注释]请求模块基础,网络,笔记,requests

安装requests模块我使用的是Anaconda 3，其中自带了requests模块供我们使用。如果没有requests模块的话，只需要以管理员身份打开cmd，输入命令pip install requests即可。requests模块的7个主要方法方法说明requests.request()构造一个请求，是支撑以下各方法的基础方法requests.get()获取HTML网页的主要方法，对应于HT...
复制链接

扫一扫