数据仓库简介
数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合,通过数据仓库中的数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。
项目需求
- 实时采集买点的用户行为数据
- 实现数据仓库的分层搭建
- 每天定时导入业务数据
- 根据数据仓库中的数据进行报表分析
技术选型角度: 数据采集传输、数据存储、数据计算、数据查询
系统架构图设计
系统数据流程设计
集群资源规划设计
服务器一 | 服务器二 | 服务器三 | |
---|---|---|---|
HDFS | NameNode、DataNode | DataNode | DataNode |
Yarn | NodeManager | ResourcemManager、NodeManager | NodeManager |
Zookeeper | Zookeeper | Zookeeper | Zookeeper |
Flume(采集日志) | Flume | Flume | |
Kafka | Kafka | Kafka | Kafka |
Flume(消费Kafka) | |||
Hive | HIve | ||
MySQL | MySQL |