数仓建模
- 范式建模
- 维度建模
- 星型建模
- 雪花模型
数仓分层
- ODS(Operation Data Store) --> 操作性数据
- DW(Data warehouse)–> 数据仓库
- DM(DataMart)–> 数据集市
数据转换过程
- web data(原始数据)
- HDFS_ODS(数据操作层)
- HDFS_DWD(数据明细层,AVRO格式存储,MapReduce||hive)——ETL
- AVRO格式动态扩展能力比较强 - HDFS_DWS(数据汇总层)——业务关联
- HDFS_ADS(数据应用层,ORC格式存储,hive select统计)——指标统计
-ORC格式便于查询 - MySQL(MySQL中间层)——数据统计
- 报表系统
开发实现过程
- 非结构化数据转换为结构化数据(MR转换)
- hive分层实现(上一部分,数据转换过程)
实际实现流程(统计分析)
- 数据聚合,将零散数据统一存储
- 数据清洗(对数据字段进行拆分组合,得到自己需要的数据字段)
- 逐层实现数据分层
- hiveSQL生成数据表
- 利用工具生成数据报表