Requests-Cache爬虫缓存
简述
Requests模块的扩展功能,通过Requests发送请求来生成相应的缓存数据。当Requests重复向同一个URL发送请求的时候,Requests-Cache会判断当前请求是否已产生缓存,若已有缓存,则从缓存里读取数据作为响应内容;若没有缓存,则向网站服务器发送请求,并将得到的响应内容写入相应的数据库里。
减少网络资源重复请求的次数,不仅减轻了本地的网络负载,而且还减少了爬虫对网站服务器的请求次数,这也是解决反爬虫机制的一个重要手段。
安装
windows环境,在cmd命令窗口下:pip install requests-cache

安装成功,验证,
cmd命令行,进入python环境,输入如下命令:
import requests_cache
requests_cache.__version__
具体执行如下:

在Requests中使用缓存
缓存机制由install_cache()方法实现:
语法:

install_cache()参数说明:
| 参数 | 说明 |
|---|---|
| cache_name | 默认值为cache,这是对缓存的存储文件进行命名 |
| backend | 设置缓存的存储机制,默认值为None,即默认sqlite数据库存储 |
| expire |

Requests-Cache是一个扩展Requests模块的功能,用于实现HTTP请求的缓存,减少网络负载和服务器压力。它通过检查缓存来决定是否需要重新发送请求。本文介绍了Requests-Cache的安装、使用方法、缓存存储机制以及如何自定义钩子函数判断缓存和设置延时。
最低0.47元/天 解锁文章
705

被折叠的 条评论
为什么被折叠?



