Airflow1.10.11 之 dag 的 SSHOperator

1, 准备脚本

[root@do-airflow ~]# vi test.b.script.sh
#!/bin/bash

S_FILE=""

S_DAY=$3
if [ -z $S_DAY ]; then
	S_DAY=`date '+%Y%m%d'`
fi
 

case $2 in 
"1")
	S_FILE="/root/$S_DAY.$1.1.log"
	;;
"2")
	S_FILE="/root/$S_DAY.$1.2.log"
	;;
"3")
	S_FILE="/root/$S_DAY.$1.3.log"
	;;
*)
	S_FILE=""
	;;
esac

if [[ $S_FILE == "" ]]; then
	exit
fi

rm -f $S_FILE

I=0
while true; do
	S_MSG=`date "+%Y-%m-%d %H:%M:%S"`
	echo $S_MSG
	echo $S_MSG >> $S_FILE
	((I=I+1))
	if [[ $I == 10 ]]; then
		break
	fi
	sleep 1	
	
done

2, 配置 connection

命令行方式

# 添加
[root@do-airflow ~]# airflow connections -a \
--conn_id ssh.192.168.109.131 \
--conn_type SSH \
--conn_host 192.168.109.131 \
--conn_login root \
--conn_password <你的密码> \
--conn_port 22

Successfully added `conn_id`=ssh.192.168.109.131 : SSH://root:******@192.168.109.131:22
[root@do-airflow ~]# 

# 显示
[root@do-airflow ~]# airflow connections -l
╒═══════════════════════╤═════════════╤═══════════════════╤════════╤════════════════╤══════════════════════╤═════════╕
│ Conn Id               │ Conn Type   │ Host              │   Port │ Is Encrypted   │ Is Extra Encrypted   │ Extra   │
╞═══════════════════════╪═════════════╪═══════════════════╪════════╪════════════════╪══════════════════════╪═════════╡
│ 'ssh.192.168.109.131''SSH''192.168.109.131' │     22 │ True           │ False                │ None    │
╘═══════════════════════╧═════════════╧═══════════════════╧════════╧════════════════╧══════════════════════╧═════════╛
[root@do-airflow ~]# 

# 删除
[root@do-airflow ~]# airflow connections -d --conn_id ssh.192.168.109.131

Successfully deleted `conn_id`=ssh.192.168.109.131
[root@do-airflow ~]# 

Web UI 方式
在这里插入图片描述

3, 准备 dag

# 安装依赖包
[root@do-airflow ~]# pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple paramiko sshtunnel
[root@do-airflow ~]# 

[root@do-airflow ~]# vi /opt/airflow/dags/d_hello.py
import airflow
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from airflow.contrib.operators.ssh_operator import SSHOperator
from datetime import timedelta

default_args = {
		'owner': 'dosrain',
		'depends_on_past': False,
		'start_date': airflow.utils.dates.days_ago(2)
}

dag = DAG(
		dag_id='d_hello',
		default_args=default_args,
		description='my first DAG',
		schedule_interval=None)
	
# 一期汇聚	

a1_operator = SSHOperator(
		ssh_conn_id = 'ssh.192.168.109.131',
		task_id='a1_task',
		command='/root/test.script.sh a 1',
		dag=dag)

# 一期入库
a2_operator = SSHOperator(
		ssh_conn_id = 'ssh.192.168.109.131',
		task_id='a2_task',
		command='/root/test.script.sh a 2',
		dag=dag)

	
# 二期汇聚	
b1_operator = SSHOperator(
		ssh_conn_id = 'ssh.192.168.109.131',
		task_id='b1_task',
		command='/root/test.script.sh b 1',
		dag=dag)

# 二期入库
b2_operator = SSHOperator(
		ssh_conn_id = 'ssh.192.168.109.131',
		task_id='b2_task',
		command='/root/test.script.sh b 2',
		dag=dag)

# Oracle汇聚
c1_operator = SSHOperator(
		ssh_conn_id = 'ssh.192.168.109.131',
		task_id='c1_task',
		command='/root/test.script.sh c 1',
		dag=dag)

a1_operator>>a2_operator
a1_operator>>b1_operator
b1_operator>>b2_operator
a2_operator>>c1_operator
b2_operator>>c1_operator

[root@do-airflow ~]# python3 /opt/airflow/dags/d_hello.py
[root@do-airflow ~]# airflow list_tasks d_hello
[2020-07-28 10:03:21,524] {__init__.py:50} INFO - Using executor LocalExecutor
[2020-07-28 10:03:21,525] {dagbag.py:396} INFO - Filling up the DagBag from /opt/airflow/dags
a1_task
a2_task
b1_task
b2_task
c1_task
[root@do-airflow ~]#

4, 触发 dag

[root@do-airflow ~]# rm -f *.log

# 启用 d_hello
[root@do-airflow ~]# airflow unpause d_hello
[2020-07-28 10:12:16,131] {__init__.py:50} INFO - Using executor LocalExecutor
[2020-07-28 10:12:16,132] {dagbag.py:396} INFO - Filling up the DagBag from /opt/airflow/dags/d_hello.py
Dag: d_hello, paused: False

# 触发 d_hello,注意,是带参数的
[root@do-airflow ~]# airflow trigger_dag -c '{"sday":"20200501"}' d_hello
[2020-07-28 10:13:12,815] {__init__.py:50} INFO - Using executor LocalExecutor
[2020-07-28 10:13:12,816] {dagbag.py:396} INFO - Filling up the DagBag from /opt/airflow/dags/d_hello.py
Created <DagRun d_hello @ 2020-07-28 10:13:12+08:00: manual__2020-07-28T10:13:12+08:00, externally triggered: True>


# 查看结果文件
[root@do-airflow ~]# ll *.log
-rw-r--r--. 1 root root 200 Jul 28 10:13 20200728.a.1.log
-rw-r--r--. 1 root root 200 Jul 28 10:13 20200728.a.2.log
-rw-r--r--. 1 root root 200 Jul 28 10:13 20200728.b.1.log
-rw-r--r--. 1 root root 200 Jul 28 10:13 20200728.b.2.log
-rw-r--r--. 1 root root 200 Jul 28 10:14 20200728.c.1.log
[root@do-airflow ~]#

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Airflow 是一个基于 Python 的工作流管理系统,在处理复杂的工作流时,自动化的任务调度和任务流的管理是非常重要的。在 AirflowDAG(Directed Acyclic Graph)是一个非常重要的概念,它定义了工作流中所有任务之间的依赖关系。在 Airflow 中,DAG 的获取依赖是通过 `airflow.models.DAG` 类实现的。 在 DAG 中,我们可以通过 `dependencies()` 方法获取 DAG 的依赖关系。这个方法返回的是一个列表,其中包含了所有依赖的任务。对于一个 DAG,可以从顶部任务开始递归地获取其所有的依赖关系。对于每一个任务节点,我们需要获取其输入和输出,根据 DAG 中的依赖关系,将所有输入任务的输出和自身输出加入到依赖列表中。这个依赖的过程可以递归进行,直到所有的任务节点都处理完毕,得到整个 DAG 的依赖结构。 除了 `dependencies()` 方法,我们还可以通过 `subdag()` 方法获取 DAG 子图的依赖关系。一个 DAG 可以包含多个子图,每个子图都是一个 DAG,它包含了一组关联的任务,这些任务可以被独立地调度和执行。通过调用父 DAG 的 `subdag()` 方法可以获得子 DAG,然后对子 DAG 进行依赖的处理,得到子 DAG 的依赖关系。 Airflow 对于 DAG 的依赖处理非常灵活,不仅支持序列依赖和并行依赖,还支持条件依赖和跳过依赖等特殊的依赖处理方式。这些依赖处理方式可以通过 DAG 中的 `xcom_push()`、`set_downstream()`、`set_upstream()`、`set_following()`、`set_following_ids()` 等方法来实现。通过这些方法,我们可以非常灵活地构建复杂的 DAG,实现自 动化的任务调度和任务流的管理。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值