scrapy爬虫之gerapy和scrapyd

本文介绍了在全站爬取需求下,对比selenium、wget和scrapy的选择,并详细阐述了如何使用Gerapy进行Scrapy爬虫的管理和Scrapyd的部署。通过实践,发现在Gerapy中Scrapyd的分布式功能并不支持任务的加速,而是用于不同任务的主机分配管理。
摘要由CSDN通过智能技术生成

(详情:https://blog.csdn.net/hsdfz0201/article/details/79600115)

scrapy爬虫

笔者近期有一个特定网站全站爬取的需求。因为全站数据量大,又希望时间开销小。作为一个入门级的爬虫工作者,根据以往经验,笔者(主要使用python编程)设想了以下几种方案:

selenium

1、用 selenium 模拟浏览器爬虫,自己改造框架,使得可以多层全站爬取。 
这里,模拟浏览器的好处在于可以加载运行JS脚本,能够解决一些JS脚本动态生成链接的问题。但是对于全站爬取而非特定页面,这样的时间开销很大,工作也很复杂,不太适合入门级的选手。(关于时间开销,如果有加速的办法和分布式解决方案请给笔者留言)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值