scrapy爬虫之gerapy和scrapyd

最新推荐文章于 2024-05-11 07:25:04 发布

baidu_252253

最新推荐文章于 2024-05-11 07:25:04 发布

阅读量804

点赞数

分类专栏： Scrapyd

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_32542573/article/details/80793397

版权

本文介绍了在全站爬取需求下，对比selenium、wget和scrapy的选择，并详细阐述了如何使用Gerapy进行Scrapy爬虫的管理和Scrapyd的部署。通过实践，发现在Gerapy中Scrapyd的分布式功能并不支持任务的加速，而是用于不同任务的主机分配管理。

摘要由CSDN通过智能技术生成

（详情：https://blog.csdn.net/hsdfz0201/article/details/79600115）

scrapy爬虫

笔者近期有一个特定网站全站爬取的需求。因为全站数据量大，又希望时间开销小。作为一个入门级的爬虫工作者，根据以往经验，笔者（主要使用python编程）设想了以下几种方案：

selenium

1、用 selenium 模拟浏览器爬虫，自己改造框架，使得可以多层全站爬取。
这里，模拟浏览器的好处在于可以加载运行JS脚本，能够解决一些JS脚本动态生成链接的问题。但是对于全站爬取而非特定页面，这样的时间开销很大，工作也很复杂，不太适合入门级的选手。（关于时间开销，如果有加速的办法和分布式解决方案请给笔者留言）

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫之gerapy和scrapyd

（详情：https://blog.csdn.net/hsdfz0201/article/details/79600115）scrapy爬虫笔者近期有一个特定网站全站爬取的需求。因为全站数据量大，又希望时间开销小。作为一个入门级的爬虫工作者，根据以往经验，笔者（主要使用python编程）设想了以下几种方案：selenium1、用 selenium 模拟浏览器爬虫，自己改造框架，使得可以多层全站爬取。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。