python爬虫requests库

最新推荐文章于 2022-03-11 16:55:05 发布

Ellen小七

最新推荐文章于 2022-03-11 16:55:05 发布

阅读量4.8k

点赞数

本文链接：https://blog.csdn.net/qq_42420425/article/details/82502334

版权

在python编写的网络爬虫中， requests库应该是最常用的库了，这里总结了一些requests库常见的函数

requests库的基本方法：

requests.request() 构造一个请求，支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法，对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求，对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求，对应于HTTP的PUT
requests.patch() 向HTML网页提交局部更新请求，对应于HTTP的patch
requests.delete() 向HTML网页提交删除请求，对应于HTTP的DELETE

下面详细说以下这七种方法的语法和作用：

requests.request(method, url, **kwargs)

method：请求方式

r = requests.request('GET', url, **kwargs)

r = requests.request('HEAD', url, **kwargs)

r = requests.request('POST', url, **kwargs)

r = requests.request('PUT', url, **kwargs)

r = requests.request('PATCH', url, **kwargs)

r = requests.request('DELETE' , url. **kwargs)

r = requests.request(''OPTIONS', url, **kwargs) 向服务器获取服务器可以和客户端打交道的参数（用到的较少）

其中各参数的含义和作用如下：

url：请求页面的链接地址

**kwargs：控制访问的参数，共有13个，那么这13个参数分别对应的是什么呢？

params：字典或字节序列，作为参数增加到url中,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中

例如：kv = {'key1: ' values', 'key2': 'values'}

          r = requests.request('GET', 'http:www.python123.io/ws', params=kw)

data：字典，字节序或文件对象，重点作为向服务器提供或提交资源是提交，，作为request的内容，与params不同的是，data提交的数据并不放在url链接里，而是放在url链接对应位置的地方作为数据来存储。，它也可以接受一个字符串对象。

json：json格式的数据， json合适在相关的html，http相关的web开发中非常常见，也是http最经常使用的数据格式，他是作为内容部分可以向服务器提交。

例如：kv = {''key1': 'value1'}

           r = requests.request('POST', 'http://python123.io/ws', json=kv)

headers：字典是http的相关语，对应了向某个url访问时所发起的http的头i字段，可以用这个字段来定义http的访问的http头，可以用来模拟任何我们想模拟的浏览器来对url发起访问。

例子： hd = {'user-agent': 'Chrome/10'}

            r = requests.request('POST', 'http://python123.io/ws', headers=hd)

cookies：字典或CookieJar，指的是从http中解析cookie

auth：元组，用来支持http认证功能

files：字典，是用来向服务器传输文件时使用的字段。

例子：fs = {'files': open('data.txt', 'rb')}

           r = requests.request('POST', 'http://python123.io/ws', files=fs)

timeout: 用于设定超时时间，单位为秒，当发起一个get请求时可以设置一个timeout时间，如果在timeout时间内请求内容没有返回，将产生一个timeout的异常。

proxies：字典，用来设置访问代理服务器。

allow_redirects: 开关，表示是否允许对url进行重定向，默认为True。

stream: 开关，指是否对获取内容进行立即下载，默认为True。

verify：开关，用于认证SSL证书，默认为True。

cert：用于设置保存本地SSL证书路径

request方法对应的requests库中的方法：

requests.get(url, params=None, **kwargs)

url: 用于获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs： 12个控制访问的参数，见以上

requests.head(url, **kwargs)

url：拟获取页面的url链接

**kwargs: 13个控制访问的参数，见以上

requests.post(url, data=None, json=None, **kwargs)

url：拟更新的url链接

data：字典，字节序列或文件， Requests的内容

json：JSON格式的数据，Requests的内容

**kwargs: 11个控制访问的参数

requests.put(url, data=None, **kawrgs)

url：拟更新页面的url链接

data：字典，字节序列或文件， Requests的内容

**kwargs: 12个控制访问的参数

requests.patch(url, data=None, **kwargs)

url: 拟更新页面的url链接

data：字典，字节序列或文件， Requests的内容

**kwargs: 12个控制访问的参数

requests.delete(url, **kwargs)

url: 拟访问页面的url链接

**kwargs: 13个控制访问的参数

其中这些方法中，get方法是这六个方法中最常用的方法，举个例子

#使用requests库get方法，抓取指定图片
# response_get=requests.get("图片地址")
# 将图片以png的形式存与文件中
# with open("firse.png","wb") as f:
#     f.write(response_get.content)

Ellen小七

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫requests库

在python编写的网络爬虫中， requests库应该是最常用的库了，这里总结了一些requests库常见的函数requests库的基本方法：requests.request() 构造一个请求，支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页头信息的方法...
复制链接

扫一扫