一、数仓项目需求及架构设计
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。
1、项目需求分析
- 数据采集平台搭建;
- 实现数据仓库分层的搭建;
- 实现数据清洗、聚合、计算等操作;
- 统计各指标,如统计通过各地址跳转注册的用户人数、统计各平台的用户人数、统计支付金额topN的用户;
2、项目框架
1)技术选型
- 数据存储:Hdfs
- 数据处理:Hive、Spark
- 任务调度:Azkaban
2)流程设计

框架版本选型:
本文详细介绍了大数据教育平台数据仓库系统的搭建过程,包括需求分析、架构设计、用户注册和做题模块的数仓设计与实现、售课模块的处理、数仓环境准备、Maven项目创建以及项目调优。文章涵盖了数据分层、ETL处理、Spark SQL和DataFrame API的使用,以及Datax数据导入。同时,还提供了数据清洗、报表统计指标计算的示例,以及项目优化策略,如广播join和分区调整等。
订阅专栏 解锁全文

778

被折叠的 条评论
为什么被折叠?



