DataPipeline丨构建实时数据集成平台时，在技术选型上的考量点

本文链接：https://blog.csdn.net/DataPipeline/article/details/90770805

本文探讨了构建实时数据集成平台时的技术选型，包括数据源变化捕获、运行环境、数据汇集层和数据转换的考量点。推荐使用基于日志解析的数据库增量捕获，Kafka Connect作为数据集成框架，Kafka作为数据汇集层，并讨论了Flink、Spark Streaming和Kafka Streams在数据流处理中的适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文 | 陈肃 DataPipeline CTO

在这里插入图片描述

随着企业应用复杂性的上升和微服务架构的流行，数据正变得越来越以应用为中心。

服务之间仅在必要时以接口或者消息队列方式进行数据交互，从而避免了构建单一数据库集群来支撑不断增长的业务需要。以应用为中心的数据持久化架构，在带来可伸缩性好处的同时，也给数据的融合计算带来了障碍。

由于数据散落在不同的数据库、消息队列、文件系统中，计算平台如果直接访问这些数据，会遇到可访问性和数据传输延迟等问题。在一些场景下，计算平台直接访问应用系统数据库会对系统吞吐造成显著影响，通常也是不被允许的。

因此，在进行跨应用的数据融合计算时，首先需要将数据从孤立的数据源中采集出来，汇集到可被计算平台高效访问的目的地，此过程被称为ETL，即数据的抽取（Extract）、转换（Transform）和加载（Load）。

ETL并不是什么新鲜事物。

该领域的传统公司，例如Informatica，早在1993年就已经成立，并且提供了成熟的商业化解决方案。开源工具，例如Kettle、DataX等，在很多企业中也得到了广泛的应用。

传统上，ETL是通过批量作业完成的。即定期从数据源加载（增量）数据，按照转换逻辑进行处理，并写入目的地。根据业务需要和计算能力的不同，批量处理的延时通常从天到分钟级不等。在一些应用场景下，例如电子商务网站的商品索引更新，ETL需要尽可能短的延迟，这就出现了实时ETL的需求。

在这里插入图片描述
在实时ETL中，数据源和数据目的地之间仿佛由管道连接在一起。数据从源端产生后，以极低的延迟被采集、加工，并写入目的地，整个过程没有明显的处理批次边界。

在这里插入图片描述
实时ETL，又被称为Data Pipeline模式。

阿里提出了“数据中台”的概念。即数据被统一采集，规范数据语义和业务口径形成企业基础数据模型，提供统一的分析查询和新业务的数据对接能力。

数据中台并不是新的颠覆式技术，而是一种企业数据资产管理和应用方法学，涵盖了数据集成、数据质量管理、元数据+主数据管理、数仓建模、支持高并发访问的数据服务接口层开发等内容。

在数据中台建设中，结合企业自身的业务需求特点，架构和功能可能各不相同，但其中一个最基本的需求是数据采集的实时性和完整性。数据从源端产生，到被采集到数据汇集层的时间要尽可能短，至少应做到秒级延迟，这样中台的数据模型更新才可能做到近实时，构建在中台之上依赖实时数据流驱动的应用（例如商品推荐、欺诈检测等）才能够满足业务的需求。<