airflow使用汇总

盛源_01

已于 2022-08-09 14:17:23 修改

阅读量871

点赞数

分类专栏： # airflow 文章标签： python

于 2021-12-09 15:38:59 首次发布

本文链接：https://blog.csdn.net/weixin_40829577/article/details/121826510

版权

airflow 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一 operator使用

1 SparkSqlOperator

from airflow.operators.spark_sql_operator import SparkSqlOperator

# 额外参数
num_executors = 10
extral_spark_conf = """"
spark.dynamicAllocation.enabled=false,
spark.executor.memoryOverhead=2G,
spark.speculation=true,
spark.speculation.interval=50000,
spark.speculation.quantile=0.95,
spark.speculation.multiplier=1.5,
spark.sql.broadcastTimeout=-1,
spark.default.parallelism=partitions_var,
spark.sql.shuffle.partitions=partitions_var
""".replace('\n', '').replace(' ', '').replace('"', '').replace('partitions_var', str(num_executors*4))


## 创建SparkSqlOperator任务
spark_task = SparkSqlOperator(
    task_id = table_name + '_task',
    name = 'flag#' + table_name,
    master = 'yarn',
    yarn_queue = 'default',
    num_executors = num_executors,
    executor_cores = 2,
    executor_memory = '12G',
    driver_memory = '1G',
    sql = spark_sql.replace('partitions_var', str(num_executors*4)),
    conf = extral_spark_conf,
    queue = '',
    dag = main_dag
)

注意:

1) extral_spark_conf参数中要去掉换行、空格和两端的双引号;

三、高级用法

1 airflow分支

Airflow的BranchPythonOperator如何工作？

四、注意事项

1 上线注意

1 暂时关闭SLA, 避免误报警；

2 暂时关闭catchup=True, 避免跑大量历史任务；

3 调试完成后, 打开以上通能；

五、性能优化

1. 节点越多延时越大，去掉无用的节点；

六、配置全局变量

#读取airflow的配置的变量
from airflow.models import Variable
foo = Variable.get("name")
print(foo)

二十、待整理

依赖历史设置打开，如果是动态生成的任务的DAG，对于新增任务无法启动，可以把该设置只放在静态任务上；

SLA设置打开，如果是动态生成的任务的DAG，对于新增任务会误报警，可以把该设置只放在静态任务上；

盛源_01

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
airflow使用汇总

1 airflow分支Airflow的BranchPythonOperator如何工作---
复制链接

扫一扫

专栏目录