python安装requests模块失败_Python爬虫五 requests模块的其他方法

requests模块的其他方法

一、requests中cookirJar的处理方法

使用request获取的resposne对象,具有cookies属性,能够获取对方服务器设置在本地的cookie,但是如何使用这些cookie呢?

1.1 方法介绍
  1. response.cookies是CookieJar类型

  2. 使用requests.utils.dict_from_cookiejar,能够实现把cookiejar对象转化为字典

1.2 方法展示
import requests

url = "http://www.baidu.com"
#发送请求,获取resposne
response = requests.get(url)
print(type(response.cookies))

#使用方法从cookiejar中提取数据
cookies = requests.utils.dict_from_cookiejar(response.cookies)
print(cookies)

输出为:

<class 'requests.cookies.RequestsCookieJar'>
{'BDORZ': '27315'}

注意:
在上一篇推文的requests的session类中,我们不需要处理cookie的任何细节,如果有需要,我们可以使用上述方法来解决

二、requests处理证书错误

经常我们在网上冲浪时,经常能够看到下面的提示:

a5a1e917fe153d38b92d14c79f93edbb.png

出现这个问题的原因是:ssl的证书不安全导致

2.1 代码中发起请求的效果

那么如果在代码中请求会怎么样呢?

import requests

url = "https://mip.tutumanhua.com"
response = requests.get(url)

返回证书错误,如下:

requests.exceptions.SSLError: HTTPSConnectionPool(host='mip.tutumanhua.com', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')])")))
2.2 解决方案

为了在代码中能够正常的请求,我们修改添加一个参数.

## SSLError,只需要在代码中加入verify=False
import requests
requests.packages.urllib3.disable_warnings()
# 上面这句话就是不显示警告信息

url = "https://mip.tutumanhua.com"
print(requests.get(url,verify=False).content.decode())

三、超时参数的使用

在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能仍然没有结果。在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让它必须在特定的时间内返回结果,否则就报错。

3.1 超时参数使用方法如下:
response = requests.get(url,timeout=3)

通过添加timeout参数,能够保证在3秒钟内返回响应,否则会报错.

import requests
url = "https://www.facebook.com"
# timeout参数代表程序获取响应超过定义的时间就报错
print(requests.get(url,timeout=3))

注意:
这个方法还能够拿来检测代理ip的质量,如果一个代理ip在很长时间没有响应,那么添加超时之后也会报错,对应的这个ip就可以从代理ip池中删除。

四、retrying模块的使用

使用超时参数能够加快我们整体的请求速度,但是在正常的网页浏览过成功,如果发生速度很慢的情况,我们会做的选择是刷新页面,那么在代码中,我们是否也可以刷新请求呢?
对应的,retrying模块就可以帮助我们解决。

4.1 retrying模块的使用

安装:

pip install retrying

retrying 模块的使用

  • 使用retrying模块提供的retry模块。

  • 通过装饰器的方式使用,让被装饰的函数反复执行。

  • retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行,达到最大执行次数的上限,如果每次都报错,整个函数报错,如果中间有一个成功,程序继续往后执行。

4.2 retrying和requests的简单封装

实现一个发送请求的函数,每次爬虫中直接调用该函数即可实现发送请求,在其中

  • 使用timeout实现超时报错

  • 使用retrying模块实现重试

import requests
from retrying import retry
url = "https://www.facebook.com"
# 这参数代表,如果get_response函数报错,不会直接退出,而是继续重新执行
# 最大尝试次数,只有当全部次数报错的时候才会报错,只要有一次成功,就继续向下执行
@retry(stop_max_attempt_number=3)
def get_response():
    print(requests.get(url, timeout=3))
get_response()

五、小结

3894b1ca5a848ccc4a73d2af2e008d7b.png

fc1fd8993eafb6de61cb7be0928c9a4a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值