– 数仓建设步骤
– 1、系统分析,确立主题
– 操作频率
– 存储时长
– 查询方式
– 响应时长
– 2、技术选型
– 对整个系统的认知
– 根据流程选择合适的工具
– 整体的方案性的设计
– 3、逻辑模型 ER图
– 4、物理模型
– 派生字段、时间主键、汇总数据
– 5、模型优化
– 合并不同的表
– 增加汇总表、宽表 dws
– 通过冗余字段减少表的连接数量 join的表不超过5张
– 主键:Id
– 对数据表进行分区、分桶 – 抽样、join
– 6、ETL过程 重点
– 分析数据,发现问题数据,给出解决方案
– 邮件交互
– 数据映射关系表:表的关系、字段的关系、转换关系
– 业务数据源 – ods
– ods – dwd
– dwd – dws(业务实现的复杂度)
– dwd/dws – dm
– 数据清洗规则
– 预处理
– 标准化处理
– 去重处理
– 错误值处理
– 缺失值处理
– 格式内容清洗
– 逻辑错误处理
– 矛盾数据处理
– 非需求数据
– 关联性验证
– 一定要跟业务方进行确认
– 转换规则
– 根据业务数据派生的内容
– 清洗数据的方案
– 7、开发流程
– 按层加载数据
– 8、元数据管理
– 数据质量管理
– 数仓分层
– ods
– dwd
– dws –
– dm
– dim – 维度设计(事先收集、自定义:时间维度、年龄段维度、地区)
– 维度:公共维度
– 私有维度
– dwd
– 维度模型 – 分析 – 冗余,减少join操作
– 星型模型
– 雪花模型
– 建模步骤
– 确定业务流程
– 确定粒度
– 确定维度
– 确定事实
– 范式模型 – 存储