数据实施服务工具组件概览
数据中台的数据实施服务涵盖 数据采集、处理、调度、分析与应用 全流程,以下为关键工具组件及其作用:
工具 | 类型 | 核心功能 | 典型应用场景 |
---|---|---|---|
DataX | 离线数据采集 | 多源异构数据批量同步 | 数据仓库ODS层数据导入 |
Apache Flink | 实时计算引擎 | 流批一体数据处理、实时ETL、复杂事件处理 | 实时监控、DWD层实时清洗与聚合 |
DolphinScheduler | 任务调度平台 | 可视化编排ETL任务、依赖管理与监控告警 | 跨层数据加工任务调度(DWD→DWS) |
TensorFlow | 机器学习框架 | 模型训练与部署、传统机器学习与深度学习 | 用户画像、销量预测、异常检测 |
PyTorch | 深度学习框架 | 动态图神经网络训练、学术研究与生产部署 | NLP、CV模型开发与优化 |
1. DataX(离线数据采集)
-
核心功能:
-
支持 异构数据源 间高效批量同步(如MySQL→HDFS、Oracle→Doris)。
-
提供插件化架构,扩展支持20+数据源(RDBMS、NoSQL、文件系统等)。
-
-
应用场景: