Apache SeaTunnel 本地快速入门指南：从零开始掌握数据处理引擎-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00683/article/details/148440587

Apache SeaTunnel 本地快速入门指南：从零开始掌握数据处理引擎

seatunnel SeaTunnel是一个开源的数据集成工具，主要用于从各种数据源中提取数据并将其转换成标准格式。它的特点是易用性高、支持多种数据源、支持流式处理等。适用于数据集成和数据清洗场景。项目地址: https://gitcode.com/gh_mirrors/se/seatunnel

前言

Apache SeaTunnel 是一个高性能、分布式、可扩展的数据集成平台，专为海量数据处理场景设计。本文将带您快速上手 SeaTunnel 引擎的本地部署和使用，通过实际案例演示如何构建一个完整的数据处理流程。

环境准备

在开始之前，请确保您已完成以下准备工作：

已下载并部署最新版本的 SeaTunnel
系统已安装 Java 运行环境（建议 JDK 8 或以上版本）
确保有足够的磁盘空间用于存储临时文件和处理结果

基础案例：模拟数据处理流程

第一步：创建配置文件

SeaTunnel 使用 HOCON 格式的配置文件来定义数据处理流程。创建一个名为 v2.batch.config.template 的配置文件，内容如下：

env {
  parallelism = 1  # 设置并行度为1，适合本地测试
  job.mode = "BATCH"  # 指定批处理模式
}

source {
  FakeSource {  # 使用内置的模拟数据源
    plugin_output = "fake"
    row.num = 16  # 生成16行测试数据
    schema = {  # 定义数据模式
      fields {
        name = "string"
        age = "int"
      }
    }
  }
}

transform {
  FieldMapper {  # 字段映射转换
    plugin_input = "fake"
    plugin_output = "fake1"
    field_mapper = {
      age = age  # 保留age字段
      name = new_name  # 将name字段重命名为new_name
    }
  }
}

sink {
  Console {  # 输出到控制台
    plugin_input = "fake1"
  }
}

第二步：运行数据处理任务

在 SeaTunnel 安装目录下执行以下命令：

./bin/seatunnel.sh --config ./config/v2.batch.config.template -m local

第三步：验证输出结果

成功执行后，您将在控制台看到类似以下的输出：

2022-12-19 11:01:46,490 INFO  org.apache.seatunnel.connectors.seatunnel.console.sink.ConsoleSinkWriter - subtaskIndex=0 rowIndex=1: SeaTunnelRow#tableId=-1 SeaTunnelRow#kind=INSERT: CpiOd, 8520946
2022-12-19 11:01:46,490 INFO  org.apache.seatunnel.connectors.seatunnel.console.sink.ConsoleSinkWriter - subtaskIndex=0 rowIndex=2: SeaTunnelRow#tableId=-1 SeaTunnelRow#kind=INSERT: eQqTs, 1256802974
...

进阶案例：MySQL 到 Doris 的数据迁移

第一步：准备连接器

编辑 plugin_config 文件，添加以下内容：

--seatunnel-connectors--
connector-jdbc
connector-doris
--end--

执行安装命令：

sh bin/install-plugin.sh

下载 MySQL JDBC 驱动并放入 lib/ 目录

第二步：创建数据迁移配置文件

env {
  parallelism = 2  # 设置并行度为2
  job.mode = "BATCH"  # 批处理模式
}

source {
  Jdbc {
    url = "jdbc:mysql://localhost:3306/test"
    driver = "com.mysql.cj.jdbc.Driver"
    user = "user"
    password = "pwd"
    query = "select * from test.table_name"
  }
}

sink {
  Doris {
    fenodes = "doris_ip:8030"
    username = "user"
    password = "pwd"
    database = "test_db"
    table = "table_name"
    sink.enable-2pc = "true"  # 启用两阶段提交
    doris.config = {
      format = "json"
      read_json_by_line = "true"
    }
  }
}

第三步：执行数据迁移任务

./bin/seatunnel.sh --config ./job/st.conf -m local

第四步：验证执行结果

成功执行后，您将看到类似以下的统计信息：

***********************************************
           Job Statistic Information
***********************************************
Start Time                : 2024-08-13 10:21:49
End Time                  : 2024-08-13 10:21:53
Total Time(s)             :                   4
Total Read Count          :                1000
Total Write Count         :                1000
Total Failed Count        :                   0
***********************************************