标题: Airflow元数据表dag介绍
日期: 2021-11-13 09:37:09
标签: [airflow, dag]
分类: 调度系统
大家好,我是Lee。
上次介绍了airflow的元数据表log,里面的主要字段event是干嘛的,怎么识别手动操作和系统操作,今天就说下dag表中的一些字段,是什么意思,该怎么用。
我使用的airflow是1.10.14版本。
先看下表结构:
Field | Type | Null | Key | Default | Extra |
---|---|---|---|---|---|
dag_id | varchar(250) | NO | PRI | ||
is_paused | tinyint(1) | YES | |||
is_subdag | tinyint(1) | YES | |||
is_active | tinyint(1) | YES | |||
last_scheduler_run | timestamp(6) | YES | |||
last_pickled | timestamp(6) | YES | |||
last_expired | timestamp(6) | YES | |||
scheduler_lock | tinyint(1) | YES | |||
pickle_id | int(11) | YES | |||
fileloc | varchar(2000) | YES | |||
owners | varchar(2000) | YES | |||
description | text | YES | |||
default_view | varchar(25) | YES | |||
schedule_interval | text | YES | |||
root_dag_id | varchar(250) | YES | MUL |
-
dag_id: dag的唯一标识,也是这个表的主键;
-
is_paused: 表示这个dag是否是开启状态,1表示开启,0表示关闭,关闭状态,scheduler不会调度该dag;
-
is_subdag: 表示这个dag是否是一个subdag。airflow中有dag包含的概念,我们可以新建一个dag,然后把其他的dag也包含进来,作为自己的其中一个子dag(一个task),子dag会依赖父dag的运行参数,但是子dag也会在元数据库中新建一个dag,dag名字为
parent_dag_id.child_dag_id
,并且字段root_dag_id
为parent_dag_id
,我们可以看下图:
-
is_active: 表示这个dag是否存在,=0代表这个dag文件之前存在过,现在已经被删除了。
-
fileloc: 表示这个dag对应的文件所在位置;
-
owners: 这个dag的属主,我们在定义dag文件的时候,有个owner参数可以使用:
default_args = {
'owner': 'chenzuoli',
'depends_on_past': False,
'start_date': datetime(2018, 12, 24),
'email': ['chenzuoli709@163.com'],
'email_on_failure': True,
'email_on_retry': False,
'retries': 3,
'retry_delay': timedelta(minutes=5),
'sla': timedelta(seconds=30),
'catchup' : False
}
dag = DAG(
dag_id,
default_args=default_args,
schedule_interval='10 0 * * *',
catchup=False)
- description: 是dag的描述,我们可以在定义dag的时候指定,相当于dag的中文注释;
- schedule_interval: 是dag的调度时间,我们可以使用crontab表达式进行描述,也可以使用airflow可识别的参数,如下:
{
'@hourly': '0 * * * *',
'@daily': '0 0 * * *',
'@weekly': '0 0 * * 0',
'@monthly': '0 0 1 * *',
'@quarterly': '0 0 1 */3 *',
'@yearly': '0 0 1 1 *',
'@once': 一次,
'none': 无
}
- root_dag_id: 如果dag为subdag,那么这个字段就是subdag对应的父dag;
好了,其他字段用得少,基本不用介绍。
下期带大家看跟dag定义相关的表dag_run,它类似我们面向对象中的类的实例,而dag表就是类的定义。
下期再见。
书山有路勤为径,学海无涯苦作舟。
欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
喜欢宠物的朋友可以关注:【电巴克宠物Pets】
一起学习,一起进步。