Airflow: 一个工作流程管理平台
Airbnb 是一个快速增长的、数据启示型的公司。我们的数据团队和数据量都在快速地增长,同时我们所面临的挑战的复杂性也在同步增长。我们正在扩张的数据工程师、数据科学家和分析师团队在使用 Airflow,它是我们搭建的一个可以快速推进工作,保持发展优势的平台,因为我们可以自己编辑、监控和改写 数据管道。
今天,我们非常自豪地宣布我们要 开源 和 共享 我们的工作流程管理平台:Airflow。
有向无环图(DAGs)呈绽放之势
当与数据打交道的工作人员开始将他们的流程自动化,那么写批处理作业是不可避免的。这些作业必须按照一个给定的时间安排执行,它们通常依赖于一组已有的数据集,并且其它的作业也会依赖于它们。即使你让好几个数据工作节点在一起工作很短的一段时间,用于计算的批处理作业也会很快地扩大成一个复杂的图。现在,如果有一个工作节奏快、中型规模的数据团队,而且他们在几年之内要面临不断改进的数据基础设施,并且手头上还有大量复杂的计算作业网络。那这个复杂性就成为数据团队需要处理,甚至深入了解的一个重要负担。
这些作业网络通常就是 有向无环图(DAGs),它们具有以下属性:已排程: 每个作业应该按计划好的时间间隔运行
关键任务: 如果一些作业没有运行,那我们就有麻烦了
演进: 随着公司和数据团队的成熟,数据处理也会变得成熟
异质性: 现代化的分析技术栈正在快速发生着改变,而且大多数公司都运行着好几个需要被粘合在一起的系统
每个公司都有一个(或者多个)
工作流程管理 已经成为一个常见的需求,因为大