陈胡：Apache SeaTunnel实现非CDC数据抽取实践

最新推荐文章于 2024-08-21 14:45:47 发布

DataFunTalk

最新推荐文章于 2024-08-21 14:45:47 发布

阅读量1.5k

点赞数 1

文章标签：大数据人工智能 DatafunTalk

本文链接：https://blog.csdn.net/DataFun_Hoh/article/details/124871521

版权

本文介绍了Apache SeaTunnel在交管行业的应用，特别是如何使用SeaTunnel1.X从Oracle数据库实现数据增量导入数仓。文章详细阐述了SeaTunnel的功能、技术特性、工作流程，以及在解决数据抽取限制、数据安全等方面的问题。通过具体的实现方案和流程，展示了如何配置和使用SeaTunnel进行数据处理。

摘要由CSDN通过智能技术生成

file

导读： 随着全球数据量的不断增长，越来越多的业务需要支撑高并发、高可用、可扩展、以及海量的数据存储，在这种情况下，适应各种场景的数据存储技术也不断的产生和发展。与此同时，各种数据库之间的同步与转化的需求也不断增多，数据集成成为大数据领域的热门方向，于是SeaTunnel应运而生。SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据（支持实时流式和离线批处理）同步和转化的数据集成平台，架构于Apache Spark和Apache Flink之上。本文主要介绍SeaTunnel 1.X在交管行业中的应用，以及其中如何实现从Oracle数据库把数据增量导入数仓这样一个具体的场景。

今天的介绍会围绕下面六点展开：

SeaTunnel简介
SeaTunnel应用场景
相关业务痛点
选择SeaTunnel的原因
具体实现方案
具体实现流程

01 SeaTunnel简介

下面对SeaTunnel从产品功能，技术特性、工作流程、环境依赖、用户使用等方面做一个总体的介绍。

1. Apache SeaTunnel整体介绍

互联网行业数据量非常大，对性能还有其他各方面的技术要求都非常高，在笔者所在的交管行业中，情况就不太一样，各方面的要求也没有互联网行业那么高，在具体的数据集成应用中，主要是使用SeaTunnel1.X版本。

file

上图所示内容引用了Apache SeaTunnel官网中的介绍。

Apache Spark对于分布式数据处理来说是一个伟大的进步，但是直接使用Spark框架还是有一定门槛的，SeaTunnel这个产品把业界使用Spark的优质经验固化到了其中，明显降低了学习成本，加快分布式数据处理能力在生产环境中落地。在SeaTunnel2.X版本中，除了Spark，也增加了对Flink的支持。

除此之外，SeaTunnel还可以较好的解决实际业务场景中碰到的下列问题：