Airflow，一个超强大的Python库

黑马非马.

于 2024-10-04 17:06:09 发布

阅读量595

点赞数 12

分类专栏： Python编程文章标签： python 开发语言

本文链接：https://blog.csdn.net/2401_83617404/article/details/142704939

版权

Python编程专栏收录该内容

62 篇文章 0 订阅

订阅专栏

Airflow 是一个用于编程和管理数据工作流的平台，它允许用户通过代码定义和调度复杂的依赖关系任务。利用 Airflow，程序员可以轻松处理各种数据处理任务，确保数据管道的自动化和高效运行。

如何安装Airflow

首先，要使用 Airflow，您需要安装 apache-airflow 库。这可以通过 pip 命令轻松完成。以下是安装步骤：

pip install apache-airflow

在您的 Python 代码中引入 Airflow 库非常简单，只需使用以下代码：

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator

以上代码将 Airflow 的核心库以及 DummyOperator 引入到您的项目中，为创建 DAG（Directed Acyclic Graph，有向无环图）和操作符做准备。

Airflow的功能特性

动态性：Airflow可以根据 DAG（Directed Acyclic Graph）定义的依赖关系动态地安排任务。

可扩展性：Airflow支持成千上万的任务，并且可以轻松地添加新任务。

可编程性：通过编写Python代码来定义任务和 DAG，提供极高的灵活性。

监控工具：内置了丰富的Web界面用于监控任务状态和 DAG 运行情况。

分布式处理：Airflow可以在分布式环境中运行，支持并行处理任务。

Airflow的基本功能

Airflow 是一个用于编程、调度和监控工作流的平台，由 Python 编写而成，可以轻松管理和调度复杂的数据管道。

基本功能

DAG 的创建与定义

在 Airflow 中，任务是通过 DAG（Directed Acyclic Graph，有向无环图）进行定义的。以下是一个简单的 DAG 示例：

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
from datetime import datetime

default_args = {
    'owner': 'airflow',
    'start_date': datetime(2023, 1, 1)
}

dag = DAG('my_first_dag', default_args=default_args, schedule_interval='@daily')

task1 = DummyOperator(task_id='task1', dag=dag)
task2 = DummyOperator(task_id='task2', dag=dag)

task1 >> task2

任务依赖关系

在 Airflow 中，可以通过设置依赖关系来控制任务的执行顺序：

from airflow.operators.python_operator import PythonOperator

def my_function(**kwargs):
    print("Executing my_function")

task3 = PythonOperator(
    task_id='task3',
    python_callable=my_function,
    dag=dag
)

task2 >> task3

触发规则

Airflow 支持多种触发规则，例如 on_success、on_failure 等。以下是如何设置触发规则的示例：

from airflow.operators.email_operator import EmailOperator

email_operator = EmailOperator(
    task_id='send_email',
    to='example@example.com',
    subject='Airflow alert',
    body='Hello, this is an alert from Airflow.',
    dag=dag
)

task3 >> email_operator

并行执行

在 Airflow 中，可以通过设置 concurrent_tasks 参数来限制同时运行的任务数：

from airflow.models import DAG

dag = DAG('parallel_dag', concurrent_tasks=3, dagrun_timeout=timedelta(minutes=60))

# 定义任务...

参数传递

Airflow 支持在 DAG 任务间传递参数，以下是一个示例：

from airflow.operators.python_operator import PythonOperator

def print_task(task_name, **kwargs):
    print(f"Executing {task_name}")

task4 = PythonOperator(
    task_id='task4',
    python_callable=print_task,
    op_args=['task4'],
    dag=dag
)

task3 >> task4

DAG 文件的组织

为了更好地管理 DAG 文件，可以使用 Airflow 的子 DAG 功能来组织代码：

from airflow import DAG

dag = DAG('my_dag')

with dag:
    # 定义子 DAG
    with DAG('sub_dag_1'):
        # 定义任务...
        
    with DAG('sub_dag_2'):
        # 定义任务...

以上代码展示了 Airflow 的基本功能，包括 DAG 的创建与定义、任务依赖关系、触发规则、并行执行、参数传递以及 DAG 文件的组织。这些功能为开发者提供了强大的任务调度和管理能力。

Airflow的高级功能

在掌握了Airflow的基本使用后，我们可以进一步探索其高级功能，这些功能可以帮助我们更好地管理和优化工作流。

动态任务生成

Airflow 允许我们根据特定条件动态生成任务，这在处理不规则或大量数据时尤其有用。

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2021, 1, 1),
}

with DAG('dynamic_dag', default_args=default_args, schedule_interval='@daily') as dag:
    for i in range(10):  # 假设我们根据某个条件生成10个任务
        task = DummyOperator(
            task_id=f'dynamic_task_{i}',
        )

跨 DAG 任务依赖

Airflow 支持在不同 DAG 之间建立任务依赖关系，提高工作流的灵活性。

from airflow import DAG

with DAG('dag1', start_date=days_ago(1)) as dag1:
    task1 = DummyOperator(task_id='task1')

with DAG('dag2', start_date=days_ago(1)) as dag2:
    task2 = DummyOperator(task_id='task2')
    task2.set_upstream(task1)  # 将 dag1 中的 task1 设置为 dag2 中 task2 的上游任务

使用 XCOM 传递数据

Airflow 的 XCOM 功能允许任务之间传递数据，这在多任务协作时非常有用。

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
from airflow.operators.python_operator import PythonOperator

def push_to_xcom(**kwargs):
    kwargs['ti'].xcom_push(key='my_value', value='some_value')

def pull_from_xcom(**kwargs):
    pulled_value = kwargs['ti'].xcom_pull(key='my_value')
    print(pulled_value)

with DAG('xcom_dag', start_date=days_ago(1)) as dag:
    push_task = DummyOperator(task_id='push_task')
    pull_task = PythonOperator(task_id='pull_task', python_callable=pull_from_xcom, provide_context=True)
    pull_task.set_upstream(push_task)

调度策略自定义

Airflow 允许我们自定义任务调度策略，以适应不同的工作流需求。

from airflow import DAG
from datetime import datetime

with DAG('custom_schedule_dag', start_date=datetime(2021, 1, 1), schedule_interval='@hourly') as dag:
    task = DummyOperator(task_id='custom_task')

    # 可以定义一个自定义的调度策略
    def custom_schedule():
        # 自定义调度逻辑
        return datetime.now() + timedelta(hours=1)

    task.run_start_date = datetime.now()
    task.run_end_date = custom_schedule()

###sla 支持与超时处理

Airflow 支持服务等级协议（SLA），并可以在任务超时时进行相应处理。

from airflow import DAG
from datetime import datetime

with DAG('sla_dag', start_date=datetime(2021, 1, 1), schedule_interval='@daily', sla=timedelta(hours=1)) as dag:
    task = DummyOperator(task_id='sla_task')

    # 设置超时时间
    task.timeout = timedelta(minutes=30)

触发规则自定义

Airflow 允许我们自定义任务的触发规则，以满足复杂的依赖关系。

from airflow import DAG
from datetime import datetime
from airflow.operators.dummy_operator import DummyOperator

with DAG('trigger_rule_dag', start_date=datetime(2021, 1, 1), schedule_interval='@daily') as dag:
    task1 = DummyOperator(task_id='task1', trigger_rule='all_success')
    task2 = DummyOperator(task_id='task2', trigger_rule='one_success')
    task3 = DummyOperator(task_id='task3', trigger_rule='all_failed')

    task1 >> [task2, task3]

通过这些高级功能，我们可以更加灵活地设计和优化Airflow工作流，以满足复杂的数据处理需求。

Airflow的实际应用场景

数据管道构建

在实际工作中，我们常常需要构建复杂的数据管道来处理和分析数据。使用Airflow可以轻松实现这一目标。

from airflow import DAG
from airflow.operators.dummy_operator import DummyOperator
from airflow.operators.python_operator import PythonOperator
from datetime import datetime

def process_data(**kwargs):
    # 处理数据的函数
    print("Processing data...")

dag = DAG('data_pipeline', start_date=datetime(2021, 1, 1))

task1 = DummyOperator(task_id='start', dag=dag)
task2 = PythonOperator(task_id='process_data', python_callable=process_data, dag=dag)
task3 = DummyOperator(task_id='end', dag=dag)

task1 >> task2 >> task3

ETL任务调度

Airflow可以用于执行ETL（提取、转换、加载）任务，自动化数据清洗和转换过程。

from airflow.providers.postgres.hooks.postgres import PostgresHook

def extract_data():
    pg_hook = PostgresHook(postgres_conn_id='my_postgres')
    records = pg_hook.get_records("SELECT * FROM my_table")
    return records

def transform_data(records):
    # 转换数据的逻辑
    transformed_data = [record[0] * 2 for record in records]
    return transformed_data

def load_data(transformed_data):
    pg_hook = PostgresHook(postgres_conn_id='my_postgres')
    pg_hook.insert_rows("target_table", transformed_data)

dag = DAG('etl_task', start_date=datetime(2021, 1, 1))

extract_task = PythonOperator(task_id='extract', python_callable=extract_data, dag=dag)
transform_task = PythonOperator(task_id='transform', python_callable=transform_data, dag=dag)
load_task = PythonOperator(task_id='load', python_callable=load_data, dag=dag)

extract_task >> transform_task >> load_task

数据同步

在多个数据源之间同步数据是常见需求，Airflow可以帮助我们自动化这一过程。

from airflow.providers.mysql.hooks.mysql_hook import MySqlHook

def sync_data():
    mysql_hook = MySqlHook(mysql_conn_id='my_mysql')
    mysql_hook.copy_table_from_to(source_table='source_table', destination_table='destination_table')

dag = DAG('data_sync', start_date=datetime(2021, 1, 1))

sync_task = PythonOperator(task_id='sync', python_callable=sync_data, dag=dag)

实时数据处理

Airflow可以与Apache Kafka等实时数据源集成，处理实时数据流。

from airflow.providers.apache.kafka.hooks.kafka import KafkaHook

def process_realtime_data():
    kafka_hook = KafkaHook(kafka_conn_id='my_kafka')
    records = kafka_hook.get_records("my_topic")
    # 处理实时数据的逻辑
    for record in records:
        print(record)

dag = DAG('realtime_processing', start_date=datetime(2021, 1, 1))

realtime_task = PythonOperator(task_id='process_realtime', python_callable=process_realtime_data, dag=dag)

数据分析报告

Airflow可以定时生成数据分析报告，并通过电子邮件发送给相关人员。

from airflow.operators.email_operator import EmailOperator

def generate_report():
    # 生成报告的逻辑
    report = "Report content"
    return report

dag = DAG('reporting', start_date=datetime(2021, 1, 1))

generate_task = PythonOperator(task_id='generate_report', python_callable=generate_report, dag=dag)
email_task = EmailOperator(
    task_id='email_report',
    to='report@example.com',
    subject='Daily Report',
    body={{ ti.xcom_pull(task_ids='generate_report') }},
    dag=dag
)

generate_task >> email_task

机器学习工作流

Airflow可以用于构建和管理机器学习工作流，自动化模型训练和部署过程。

from airflow.operators.python_operator import PythonOperator

def train_model():
    # 训练模型的逻辑
    model.fit(X_train, y_train)

def deploy_model(model):
    # 部署模型的逻辑
    model.save('model_path')

dag = DAG('ml_workflow', start_date=datetime(2021, 1, 1))

train_task = PythonOperator(task_id='train_model', python_callable=train_model, dag=dag)
deploy_task = PythonOperator(task_id='deploy_model', python_callable=deploy_model, dag=dag)

train_task >> deploy_task