requests超时参数的使用与retrying模块的使用

最新推荐文章于 2024-08-23 20:19:56 发布

喜欢吃蔬菜~

最新推荐文章于 2024-08-23 20:19:56 发布

阅读量8.7k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/huwei_1993/article/details/81674743

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1、在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果

对应的，在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错

使用方法如下：

response = requests.get(url,timeout=3)

通过添加timeout参数，能够保证在3秒钟内返回响应，否则会报错

这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除

2.retrying模块的使用

使用retrying模块提供的retry模块
通过装饰器的方式使用，让被装饰的函数反复执行
retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行

import requests
from retrying import retry

headers = {}


@retry(stop_max_attempt_number=3) #最大重试3次，3次全部报错，才会报错
def _parse_url(url)
    response = requests.get(url, headers=headers, timeout=3) #超时的时候回报错并重试
    assert response.status_code == 200 #状态码不是200，也会报错并充实
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        response = None
    return response