HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元
数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。
管理平台:任务的调度,元数据的管理,任务的监控报警。
数据源:
- DB数据库:来自服务端的数据
- Flume:埋点事件数据
- API:各个服务接口数据
- Kafka:服务消息数据
- Kettle:数据壶,数据etl工具,将数据格式化输出
- dataX阿里数据同步工具,主要用于各个部门的数据同步任务
ETL任务:数据清洗,抓取,转换的过程,主要处理各个数据传上来的数据,将数据标准化输出到ODS层
数据服务层&tool:数据的高聚合层主要有以下模块,
- 数据仓库:全部数据的聚合位置,包括