有了数据平台、数据仓库之后,还需要一个系统来调度和管理数仓的任务。现有的开源调度系统:
dolphin、hera、airflow、oozie、zeus、azkaban。
1. 调度系统功能图
调度系统负责抽取数据到数据仓库,日志就是我们可能要抽取埋点日志等,经过数据仓库加工聚合之后,数据可以导入报表、导出到主站等。
2. 调度系统架构图
apiservice服务主要给页面提供接口访问,对创建的任务的调度进行CRU等操作;
Alertservice 服务对失败的任务进行邮件短信告警。
Logservice 服务主要收集 worker 运行任务的日志。
Master:有HA的,接收apiservice提交的任务,分发到对应的节点进行调度。、
worker:执行任务,包括 datax 同步任务,shell 任务和 hive SQL 任务。
原文:
flow概念: