Python 实战:用 Scrapyd 打造爬虫控制台

爬虫本地直接跑还是部署到服务器跑? 有天,老板安排小黄一个任务,要求获取某体育赛事网站上所有足球联赛及球队的信息数据,并存入数据库中为后续的数据分析和计算做准备。因为这类信息更新频率比较低,所以隔十几天启动一次是没什么问题的,用 requests 就搞定了。又过了几天,老板跟你说,要求每天24小时不间断采集赛事信息,于是你把脚本写成了服务放在服务器运行。又过了一段时间,老板说:我们要将上个百主流体资讯网站的新闻采集回来,这时候你需要同时维护成百上千个爬虫,你需要根据频率调度每个爬虫,监控每个爬虫的异常状态和日志信息,如果这些全部需要自己来实现的话,无异于闭门造车,因为业界已经有成熟解决方案。

Scrapyd 就是业内最优秀的爬虫框架之一 Scrapy 官方出品的部署管理平台。有了它,你就可以通过 API 向指定的爬虫发起指令,并且可以通过 Web 页面来查看爬虫的运行记录与状态等信息。

640?wx_fmt=other

将爬虫部署到服务器是大部分爬虫工程师必备的技能,这个技能可以为你的职业价值锦上添花。

网上关于 Scrapyd 的资料比较少,除了官方文档之外,只有一些比较零散的教程文章,远远无法满足大部分开发者的技能需求。

于是,一位资深爬虫工程师、开源项目 ScrapydArt 作者-韦世东撰写了一本小册子,梳理了自己多年爬虫项目实践经验,以帮助更多工程师逐步实现「唯你可用」的爬虫部署管理控制台。

640?wx_fmt=png

册子分为几个大的部分:

  • 基础篇:熟练应用打包工具,学会爬虫的打包和部署

  • 进阶篇:代码调试方法以及源码阅读技巧

  • 实战篇:装饰器知识的原理和应用

  • 大型实战篇:基于 Scrapyd 进行扩展的能力

小册子将通过 Scrapy 项目打包部署、Scrapyd 目录结构分析、功能模块释义和源码剖析来深入浅出的讲解相关功能的原理,并且通过自定义 API、增加统计数据和界面美化等实践来进一步加深你对 Scrapyd 的理解。最终达到可以随心所欲的将 Scrapyd 的功能进行扩展,从而实现自己想要的爬虫部署管理控制台。

这本册子,是迄今为止,对 Scrapyd 总结的相当通俗,全面,而且理论结合实践的资料。小册图文并茂,直观易懂,下面的动画大家感受一下。

640?wx_fmt=png

640?wx_fmt=gif

有没有感受到册子的诚意?


为了写出更好的文字,更好服务技术人,小册子选择了收取一些费用。该册子,通过下方海报购买是8折优惠,23.92元,限时一周。 目前 一些章节免费 ,欢迎扫码阅读。

640?wx_fmt=png

扫码免费阅读部分章节

对 Scrapy 不感兴趣也没关系,大家帮一下,让更多的原创干货被更多的技术人看到,感谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值