airflow高可用

本文详细介绍了如何实现Airflow的高可用性,包括Webserver、Scheduler和Worker的集群部署,通过HAProxy、Mysql主从备份、RabbitMQ集群以及使用airflow-scheduler-failover-controller确保scheduler的高可用性。
摘要由CSDN通过智能技术生成

1.前言

airflow作为调度工具,由Webserver、Scheduler、Worker三个组件互相配合完成工作。三个组件之间没有强依赖关系,依靠共用数据库和消息队列完成调度任务。因此,在多台机器上部署airflow,配置相同的元数据库和消息队列,以此来实现airflow的集群模式。

2.工作原理

1) airflow启动时,会将dag中的相关信息写入数据库。
2) scheduler会按照指定频次查询数据库,检测是否有需要触发的任务。
3) 当scheduler检测到需要触发的任务时,会向消息队列发送一条Message。
4) Celery会定时查询消息队列中,是否有Message。当检测到Message时,会将Message中包含的任务信息下发给Worker,由Worker执行具体任务。

3.Airflow安装

4.组件高可用

1) 启动多个webserver,通过HAProxy做LB。
2) 启动多个Worker。
3) 使用airflow-scheduler-failover-controller实现scheduler的高可用。
4) Mysql做主从备份。
5)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值