Seatunnel从陌生到熟悉
1、初识Seatunnel
- 下一代高性能,分布式、海量数据集成工具。
- SeaTunnel是一个非常易用、超高性能的分布式数据集成平台,支持海量数据的实时同步。每天可稳定高效同步数百亿数据,已被近百家企业应用于生产。
- 对比DataX,个人感觉Seatunnel单机性能上稍逊色一点,他的优点在于分布式!!!
2、工作流程图(官网)
SeaTunnel的运行流程如上图所示
- 用户配置作业信息并选择提交作业的执行引擎。
- Source Connector负责并行读取数据并将数据发送到下游Transform或直接发送到Sink,Sink将数据写入目的地。值得注意的是,Source、Transform 和 Sink 可以很容易地自行开发和扩展。
- SeaTunnel 是一个 EL(T) 数据集成平台。因此,在SeaTunnel中,Transform只能用于对数据进行一些简单的转换,例如将一列的数据转换为大写或小写,更改列名,或者将一列拆分为多列。
- SeaTunnel 使用的默认引擎是 SeaTunnel Engine。如果选择使用Flink或Spark引擎,SeaTunnel会将Connector打包成Flink或Spark程序并提交给Flink或Spark运行。