阅读本文大概需要 10 分钟。
“凉风有性 秋月无边……” 编不下去了。
自从上次发布开源库 aiowebsocket 之后,小奎因已经很久没有在公众号露面了。
其是这段时间我在憋大招,一是我正在编写一本反爬虫原理和对应绕过技巧方面的书籍;二是我和崔哥在重构 Gerapy 项目;对,没错。就是这个 star 数 1200+ 的 爬虫部署和调度平台 Gerapy。
在重构 Gerapy 项目的过程中,踩了不少的坑,但也学习到了很多知识。大家都知道,爬虫项目在编写完成后往往需要部署到服务器上,以便定时执行。重构 Gerapy 的过程中,需要解决以下问题:
从部署到执行的过程会经历哪些阶段?
如何将 PYHTON 项目打包成 EGG 文件?
版本控制是如何实现的?
如何运行 EGG 文件?
任何 PYTHON 项目都可以放到服务器上调度吗?
定时任务功能是如何实现的?
同时运行多个 EGG 文件的原理是什么?
现在很多团队都在构建企业内部使用的爬虫一体化平台,如果你掌握了这些知识,就能够为团队提出很多建议。当然,作为一名合格的爬虫工程师,我们也有必要了解项目完整的生命周期。
我花了一段时间整理 Gerapy 项目重构过程中获得的经验,恰逢华为云社区举办云享专家直播活动,我有幸争取到了一个直播的机会。我将会在 2019 年 5 月 22 日晚 19:00 在华为云社区开启主题为《45 分钟掌握 PYTHON 项目部署与调度核心逻辑》的直播。直播内容主要涉及 PYTHON 项目打包、EGG 包运行、项目版本控制、多机通信、并行执行和定时任务等。
大家可以从本次直播中收获进程交互、进程协议、分布式多机通信、任意 PYTHO项目打包、EGG 文件的运行等知识。同时能够掌握 PYTHON 项目从打包到部署再到执行的整个流程的关键技术点。
你将在直播中看到这样的代码:
还有这样的代码:
和这样的代码:
本次直播还准备了一些 PYTHON 爬虫类书籍作为观众提问的奖品。 比如:
欢迎大家传播分享
小奎因将继续为大家贡献知识。
【活动说明】
1、本期活动面向所有开发者,大家扫描上图二维码或者点击下方阅读原文即可进行报名预约。
2、提交报名后,华为云将于直播当天通过邮件或短信向您推送在线直播观看地址。
3、直播期间参与问卷或评论互动,若提问内容被导师翻牌,将有机会获得精选爬虫书籍哦。
推荐阅读
1
2
跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!
3
4
妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池
隐形字
公众号:进击的Coder
长按识别二维码关注