python爬虫下载缓存

最新推荐文章于 2024-06-18 16:33:43 发布

快乐江小鱼

最新推荐文章于 2024-06-18 16:33:43 发布

阅读量603

点赞数

分类专栏： python 文章标签：爬虫缓存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dolly_baby/article/details/126606551

版权

python 专栏收录该内容

60 篇文章 4 订阅

订阅专栏

下载缓存

从已爬取到网页中抓取数据，已经将抓取结果保存到表格后。如果还需要抓取另一个字段，需要重新下载整个网站，耗时严重。通过对已爬取网页进行缓存，让每个网页只下载一次。

想要支持缓存，需要在URL下载之前检查缓存，此外还需要把限速功能移到函数内部，真正发生下载时才会触发限速，而在加载缓存时不会触发。缓存下载结果，可以将下载到的网页存储到文件系统中。为了最小化缓存所需要的磁盘空间，我们可以对下载得到的HTML文件进行压缩处理。只需要在保存磁盘前使用zlib压缩序列化字符串即可，fp.write(zlib.compress(pickle.dumps(res)))。而从磁盘加载后解压使用pickle.loads(zlib.decompress(fp.read()))。

网页内容随时都有可能发生变化，存储在缓存中的数据存在过期风险，我们可以为缓存数据添加过期时间，以便爬虫知道什么时候重新下载网页。

为了避免磁盘缓存的限制，可以在数据库中创建缓存。爬取时可能需要缓存大量数据，但是又不需要任何复杂的连接操作，因此可以选用NoSQL数据库，可以选择MongoDB作为缓存数据库。通过MongoDB创建timestamp索引，在达到给定时间戳一定秒数之后，可以自动删除记录。

快乐江小鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫下载缓存

爬虫下载缓存分析
复制链接

扫一扫

专栏目录

快乐江小鱼 CSDN认证博客专家 CSDN认证企业博客

码龄8年

232: 原创

1万+: 周排名

1万+: 总排名

15万+: 访问

: 等级

3075: 积分

571: 粉丝

706: 获赞

8: 评论

802: 收藏

私信

关注

热门文章

分类专栏

消息队列 4篇
算法与数据结构 26篇
设计模式 25篇
并发编程 15篇
java 28篇
drools 7篇
spring 19篇
mybatis 1篇
IO 3篇
python 60篇
数据库
NoSQL 6篇
MySQL 6篇
操作系统
windows 5篇
Linux 4篇
Html 9篇
CSS 5篇
js 6篇

最新评论

nexus私服npm离线包批量下载
JRighte: 明天试试
规则引擎drools Part2
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
PyQt6从入门到放弃
尚久龙: PYQt6没有qtdesigner吗？直接画出来不香吗？为什么要这么麻烦的写代码呢！直接处理逻辑部分不就好了吗？好久没有用过QT了，不好意思哈，也许现在改版了和原来不一样了
Java代码静态代码检查checkstyle
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
MyBatis-Flex学习手册
稻草人X22: 这不是官方文档吗

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

快乐江小鱼 知识创造财富，余额还是小数

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。