Airflow成为Apache软件基金会的顶级项目

Airflow是一个开源的大数据工作流管理系统,在Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。

2019年1月8日,位于马萨诸塞州Wakefield的Apache软件基金会宣布Airflow为顶级项目。

Airflow是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百PB级的大数据处理管道。从Apache孵化器毕业意味着Airflow社区和产品在ASF的管理流程和原则下得到了很好的治理。

Airflow副总裁Bolke de Bruin说:“自一开始,Airflow就迅速地成为工作流编排的事实标准。Airflow已经在开发人员和数据科学家中获得了广泛的应用,这要归功于它的‘配置即代码’。这让我们在ASF孵化过程中赢得了社区的支持,社区不仅使用Airflow,也为其做出了贡献。Airflow易于使用、可扩展并拥有多样化的社区力量。它受到了企业和初创公司的欢迎,现在可以升级为顶级项目。”

Airflow用于编排复杂的计算工作流。通过智能调度、数据库和依赖管理、错误处理和日志记录,Airflow实现了从单个服务器到大型集群资源管理的自动化。该项目用Python编写,具有高度可扩展性,并能够运行用其它语言编写的任务,可以与常用架构和项目集成,例如AWS、S3、Docker、Apache Hadoop HDFS、Apache Hive、Kubernetes、MySQL、Postgres、Apache Zeppelin,等等。2014年,Airflow诞生于Airbnb,并于2016年进入Apache孵化器。

目前,有200多个组织在使用Airflow,包括:Adobe、Airbnb、Astronomer、Etsy、谷歌、ING、Lyft、纽约城市规划局、PayPal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、推特和美联航,等等。已知用户列表可从以下链接获取:https://github.com/apache/incubator-airflow#who-uses-apache-airflow

Adobe Experience Platform首席架构师Hitesh Shah表示:“Adobe Experience Platform构建于云基础设施之上,利用了多种开源技术,其中包括:Apache Spark、Kafka、Hadoop、Storm等。Airflow是大数据处理管道编排引擎生态系统的一个非常好的新成员。我们已经在Adobe Experience Cloud的各种场景中使用了Airflow,并将很快与大家分享我们在Kubernetes上运行Airflow的实验结果。”

来自Data Reply的数据工程师Kaxil Naik说:“我们的客户非常喜欢Airflow。Airflow已经成为我们过去2年中创建的数据管道的一部分,它好像魔戒大师,驯服了我们的机器学习和ETL管道。它帮助我们为客户创建了整个数据生态系统的单一视图。Airflow的数据感知调度和错误处理能力有助于整个报告生成过程的自动化,无需任何人工干预。它可以与谷歌云(以及其他主要的云供应商)集成, 而且由于Airflow的‘配置即代码’模式,非技术员工也可以使用它,无需经历陡峭的学习曲线。”

PayPal首席数据工程师Sid Anand说:“PayPal依靠像Airflow这样的工作流调度器来管理250多PB的数据,满足了PayPal的数据移动需求 。此外,Airflow可用于跨多个分布式系统进行系统编排,包括:自修复、自动扩展和可靠的(重新)配置。”

Qubole工程经理Sumit Maheshwari表示:“自2016年9月我们将Airflow产品作为服务提供以来,很多公司,无论大小,都成功地把他们的工作流迁移到了Airflow上。在Qubole,我们不仅是供应商,还是Airflow的大客户。例如,我们的见解和推荐平台是围绕Airflow构建的,每个月,我们在其上处理来自数百家企业数十亿个事件,并为他们的大数据解决方案(如Apache Hadoop、Apache Spark和Presto)生成见解。Airflow的简单性以及其能轻松地与其他解决方案(如云、监控系统或各种数据来源)集成给我们留下了深刻的印象。”

ING WB Advanced Analytics分析平台负责人Rob Keevil表示:“在ING,我们用Airflow来编排我们的核心流程,每天转换全球的数十亿条记录。其功能集、开源传统以及可扩展性非常适合用于协调我们的各种批处理工作负载,包括ETL工作流、模型训练、集成脚本、数据完整性测试和告警。我们一开始就在Airflow的开发过程中发挥了非常积极的作用,提交了数百个拉取请求以确保社区受益于ING创建的Airflow改进。我们很高兴看到Airflow从Apache孵化器毕业了,也很期待这个令人激动的项目在未来的发展!”

Polidea首席软件工程师Jarek Potiuk说:“在我们开始做出贡献并使用Airflow时,就已经看到它作为编排器的价值所在。当需要维护一个巨大的配置时,由工程师们开发和维护整个工作流通常是个巨大的挑战。借助Airflow,DevOps仍然可以使用标准的编码工具来改进你的基础设施。它最好的地方就是‘基础设施即代码’。”

Airflow副总裁Bolke de Bruin补充道:“工作流编排在我们所处的(大)数据时代扮演着至关重要的角色。该领域发展非常快,并且新的数据思维刚开始产生影响。Airflow是数据时代的产物,因而定位非常好,并且因为年轻,还有很多发展余地。Airflow可以利用科学计算、企业、初创公司的聪明才智更进一步地改进。”

可用性和监督

Airflow基于Apache License v2.0许可,并由一个活跃贡献者自选团队进行监督。项目管理委员会指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入Airflow的方法,请参考以下链接:http://airflow.apache.org/ 和https://twitter.com/ApacheAirflow

阅读英文原文:The Apache Software Foundation Announces Airflow as a Top-Level Project,https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值