Apache Airflow 资源汇总

---- 文章中出现任何问题或描述不清楚的地方请不吝指出,大家共同交流,一起进步!----

Apache Airflow已经进入了2.0时代了,相关的中文资源还是比较缺少,有空整理一下我所了解到的Airflow的相关资源,供大家参考。

资源的优先级由上至下依次列出,解决问题查找资料时,请先查看官方资源相关的第一手资料,其次再使用slack / email / github issue 等方式直接与开源社区沟通,以获得最专业的指导,再其次可以与中文社区相关的成员进行沟通,以获得一些前人的经验方面的信息。

0.官方资源

A. github apache/airflow

github上有最新的源代码,社区成员提的 issue,airflow 的发布进程(在 milestone 中可以查看) 等信息,为最为重要的资源。

B. 官网 Home

官网包括Community, Meetups, Documentation, Use cases, Announcements, Blog, Ecosystem 七大部分。下面分别简单介绍下这七大部分的内容:

a. Community https://airflow.apache.org/community/

这部分简单的介绍了Airflow是的起源和近况及如何加入社区的,参与社区的各种方式。

b. Meetups https://airflow.apache.org/meetups/

这部分列出了 现有的各个地区的meetup 组织已经如何举行meetup的步骤,目前还没有看到中国地区的meetup,值得期待。

c. Documentation https://airflow.apache.org/docs/

文档分为两大部分,一部分是airflow核心部分的文档,另一大部分是相关的provider package(即社区贡献的各种operators的相关说明)

核心文档包括了airflow的快速入门教程,相关组建介绍,dag相关的概念,升级到2.0的官方指南等一系列权威的内容,是快速入门airflow的最佳资料。

provider packages中的内容提供了相关开源operator的详细说明以及使用样例,需要时可以进行搜索并参考。

d. Use-cases Use cases

这部分列举了一些企业具体运用airflow的一些实战经验,airflow适用于大数据的etl场景,机器学习相关需要周期性调度的也有相关的应用实践经历。

e. Announcements https://airflow.apache.org/announcements/

社区重大事项的宣告,如发布最新版本,新增commiter/pmc 等等。

f. Blog https://airflow.apache.org/blog/

社区主要贡献者发的一些博客,内容较少,但信息含量很大,值得参考。

g. Ecosystem https://airflow.apache.org/ecosystem/

这部分记录了社区但一些学习资源,airflow现有的云厂商,以及周边的一些工具信息。

C. 官方wiki Apache Software Foundation

wiki记录了一些较为重大的功能的提议文档 (以AIP开头的), 社区主要成员周期性Dev Calls的相关记录,还有一些规范、章程类的文档。

1.相关云厂商文档

a. astronmer guides

https://www.astronomer.io/guides

b. quoble user guides

https://docs.qubole.com/en/latest/user-guide/data-engineering/airflow/index.html

c. google cloud composer guides

https://cloud.google.com/composer

2.社区联系方式

email

users list (使用者邮件列表)

发送邮件至 users-subscribe@airflow.apache.org ,确认消息后即可加入

退订则发送消息至 users-unsubscribe@airflow.apache.org

dev list (开发者邮件列表)

发送邮件至 dev-subscribe@airflow.apache.org

退订则发送邮件至 dev-unsubscribe@airflow.apache.org

slack Slack

点击上面的链接即可加入airflow slack频道进行交流,其中有很多个channel,若遇到问题可以选择相关的主题进行提问,列清楚自己的环境信息,具体出现这个问题的场景,出错的日志等信息,使用英文发出即可。

3.github 上的一些资源

a.awesome-apache-airflow

https://github.com/jghoman/awesome-apache-airflow

airflow pmc 维护的一个资源列表库,信息丰富,值得收藏。

4.中文相关博客

a. Airflow 探究

b. somenzz:如何部署一个健壮的 apache-airflow 调度系统

c. airflow源码解读

d. Apache Airflow系列文章

5. 小结

Airflow在国外已经成为事实上的工作流标准,主要云厂商都提供相应的云服务,可以开箱即用,但在国内由于缺少有效的文档和开源支持,使得其发展势头不是很好,期望自己能够为airflow 在国内积极的发展做出一些贡献,就从这个资源汇总开始吧。

更多关于Apache Airflow的文章,请查看 Apache Airflow系列文章

最后打个广告,欢迎大家加入Apache Airflow技术交流群,大家共同参与,一起玩转Airflow。

或者加入QQ群 704721809。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Airflow是一个开源的工作流程管理平台,用于将任务以有序的方式进行调度和执行。实战Apache Airflow可以帮助我们更好地管理和监控数据流和任务的运行。 首先,我们可以使用Apache Airflow创建和定义任务的工作流程。通过编写代码,我们可以定义任务之间的依赖关系并设置任务的调度时间。这使得我们能够更好地组织和安排任务的执行顺序,以确保任务按照我们期望的方式进行。 其次,Apache Airflow提供了一个直观的用户界面,通过该界面我们可以轻松地查看和监控任务的运行情况。我们可以查看任务的调度时间、执行结果和任务之间的依赖关系,以及任务的日志记录。这样,我们可以即时获取任务执行的状态和进展,及时发现并解决问题。 此外,Apache Airflow还提供了一种灵活的方式来处理任务失败和重试。我们可以配置任务的重试次数和重试间隔,在任务失败时自动进行重试,以确保任务最终成功完成。这大大提高了任务的容错性和稳定性。 最后,Apache Airflow还提供了丰富的插件和扩展性,可以与其他工具和服务进行集成。我们可以通过插件来连接和操作不同的数据源,例如数据库、文件系统或云存储。这使得我们能够更方便地进行数据处理和分析,提高工作效率。 总而言之,Apache Airflow是一个功能强大的工作流程管理平台,可以帮助我们更好地组织、调度和监控任务的执行。通过实战Apache Airflow,我们可以提高任务的可靠性和效率,以及更好地处理和分析数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值