python 日志分析框架_哪些 Python 库让你相见恨晚?

Tenacity。

Python重试从此无比简单。这是我博客上的一篇文章,毫不掩饰我对Tenacity这个第三方库的喜爱和赞美之情。

---

title: Tenacity——Exception Retry 从此无比简单

date: 2017-06-18 00:17:47

tags: ['Python', 'Exception', 'Tenacity']

category: ['Python']

comments: true

---

[Python 装饰器装饰类中的方法](https://kingname.info/2017/04/17/decorate-for-method/)这篇文章,使用了装饰器来捕获代码异常。这种方式可以让代码变得更加简洁和Pythonic。

在写代码的过程中,处理异常并重试是一个非常常见的需求。但是如何把捕获异常并重试写得简洁高效,这就是一个技术活了。

以爬虫开发为例,由于网页返回的源代码有各种不同的情况,因此捕获异常并重试是很常见的要求。下面这几段代码是我多年以前,在刚开始学习爬虫的时候,由于捕获异常并重试导致代码混乱化过程。

代码一开始的逻辑非常简单,获取网页后台API返回的JSON字符串,转化成字典,提取出里面`data`的数据,然后传递给`save()`函数:

```python

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

代码运行一段时间,发现有时候JSON会随机出现解析错误。于是添加捕获异常并重试的功能:

```python

def extract(url):

info_json = requests.get(url).text

try:

info_dict = json.loads(info_json)

except Exception:

print('网页返回的不是有效的JSON格式字符串,重试!')

extract(url)

return

data = info_dict['data']

save(data)

```

后来又发现,有部份的URL会导致递归深度超过最大值。这是因为有一些URL返回的是数据始终是错误的,而有些URL,重试几次又能返回正常的JSON数据,于是限制只重试3次:

```python

def extract(url):

info_json = requests.get(url).text

try:

info_dict = json.loads(info_json)

except Exception:

print('网页返回的不是有效的JSON格式字符串,重试!')

for i in range(3):

if extract(url):

break

data = info_dict['data']

save(data)

return True

```

后来又发现,不能立刻重试,重试要有时间间隔,并且时间间隔逐次增大......

从上面的例子中可以看到,对于异常的捕获和处理,一不小心就让整个代码变得很难看很难维护。为了解决这个问题,就需要通过装饰器来完成处理异常并重试的功能。

Python 有一个第三方库,叫做[Tenacity](http://tenacity.readthedocs.io/en/latest/),它实现了一种优雅的重试功能。

以上面爬虫最初的无限重试版本为例,如果想实现遇到异常就重试。只需要添加两行代码,爬虫的主体函数完全不需要做修改:

```python

from tenacity import retry

@retry

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

现在要限制重试次数为3次,代码总行数不需要新增一行就能实现:

```python

from tenacity import retry, stop_after_attempt

@retry(stop=stop_after_attempt(3))

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

现在想每5秒钟重试一次,代码行数也不需要增加:

```python

from tenacity import retry, wait_fixed

@retry(wait=wait_fixed(5))

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

甚至重试的时间间隔想指数级递增,代码行数也不需要增加:

```python

from tenacity import retry, wait_exponential

@retry(wait=wait_exponential(multiplier=1, max=10)) # 重试时间间隔满足:2^n * multiplier, n为重试次数,但最多间隔10秒

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

重试不仅可以限制次数和间隔时间,还可以针对特定的异常进行重试。在爬虫主体中,其实有三个地方可能出现异常:

* requests获取网页出错

* 解析JSON出错

* info_dict字典里面没有`data`这个key

如果只需要在JSON解析错误时重试,由于异常类型为`json.decoder.JSONDecodeError`,所以就可以通过参数来进行限制:

```python

from tenacity import retry, retry_if_exception_type

from json.decoder import JSONDecodeError

@retry(retry=retry_if_exception_type(JSONDecodeError))

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

当然,这些特性都可以进行组合,例如只对`JSONDecodeError` 进行重试,每次间隔5秒,重试三次,那就写成:

```python

from tenacity import retry, retry_if_exception_type, wait_fixed, stop_after_attempt

from json.decoder import JSONDecodeError

@retry(retry=retry_if_exception_type(JSONDecodeError), wait=wait_fixed(5), stop=stop_after_attempt(3))

def extract(url):

info_json = requests.get(url).content.decode()

info_dict = json.loads(info_json)

data = info_dict['data']

save(data)

```

自始至终,爬虫主体的代码完全不需要做任何修改。

Tenacity是我见过的,最 Pythonic ,最优雅的第三方库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值