目的:
使终端用户在面向Hadoop集群进行数据集处理和数据集管理更加容易。
原因
- 在Hadoop环境中,在各种数据集和处理关系之间建立关系
- 在集群中进行数据集管理例如数据集声明周期、数据集复制等
- 抓取数据集或者处理过程的血统信息。
- 允许本地数据和其他任何地方的集群进行数据整合。
- 与metastore和catalog进行整合,例如:Hive和Hcatalog
Easy to onboard new workflows/pipelines, with support for late data handling, retry policies
Falcon是一个面向Hadoop的、数据处理和管理平台。它被设计用于数据移动、数据管道协调、生命周期管理和数据备份等场景。Falcon本质上是通过数据处理引擎将数据集和处理过程的配置信息转化为重复的业务处理流程。
在Apache Falcon中,集群接口连接、数据集 、处理规则均是声明式的。这种声明式配置显式定义了实体之间的依赖关系,这也是该平台的一个特点,它本身只维护依赖关系,而并不做任何繁重的工作。所有的功能和工作流状态管理需求都委托给工作流调度程序来完成。
Apache Falcon解决了大数据领域中一个非常重要和关键的问题。升级为顶级项目是该项目的一个重大进展。Apache Falcon具有完善的功能实现,可以使应用程序开发和管理人员在管理数据时实现自动化。