因为大数据生态的复杂性,对于大数据开发人员来说,要深入其原理并形成体系发挥作用需要花费很多时间,而他们更多的是要聚焦在业务层面进行数据处理。而对于企业来说,要构建一个成熟稳定、功能多样的大数据平台需要花费很多的时间与人力成本。
今天我们就来说说,数据工程师在使用数栈平台时,DAGScheduleX 调度引擎是如何承载数栈开发套件,帮助工程师更加快速地实现开发任务的。
什么是DAGScheduleX
调度引擎:对Task(任务)生成Job(实例)并对Job进行统一调度管理,并提供Job实例基于多个集群不同版本(Hadoop2、Hadoop3、CDH、HDP)多种不同计算引擎的任务调度。
袋鼠云数栈平台有七大开发套件:离线开发、实时开发、算法开发、标签引擎、数据共享服务、数据质量、数据资产,大数据开发人员可以在套件中直接进行业务逻辑的开发,而不用关心底层的大数据平台的架构与实现,将工作的重心更多地聚焦在业务之中。套件中所开发的Task(任务)会对应生成一个可执行的Job(实例),而所有Job(实例)的执行都依赖于DAGScheduleX(调度引擎的简称)。
DAGScheduleX的部署策略
DAGSche