今天我们来介绍一下使用Airflow来调度 Data Lake Analytics(后面简称DLA)的任务执行。DLA作为一个数据湖的解决方案,
客户有每天周期性的调度一些任务从DLA查询数据回流到业务系统的需求。因为DLA兼容
MySQL的协议,因此所有支持MySQL的协议的调度框架都天然支持DLA,今天就来介绍一下使用业界著名的
Apache Airflow 来调度DLA的作业。
大致步骤如下:
- 购买一个ECS用来运行Airflow
- 安装Airflow
- 添加DLA的DB Connection
- 开发任务脚本
购买ECS并进行配置
购买ECS的详细流程这里就不一一罗列了,非常的简单,按照官方的购买流程可以分分钟完成,需要注意的几点这里说一下:
- 购买的ECS的Region要和你的数据所在Region(其实也就是你开通DLA的 Region 保持一致)。
- 购买的ECS需要开通外网访问权限,因为Airflow的一些网页控制台需要通过外网来访问。
- ECS购买好之后记得在安全组里面放行入方向的80端口,因为下面要安装的Airflow有web页面,我们需要通过80端口进行访问,如下图: