数仓分层
以《大数据之路:阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:
- ods: 近源层/贴源层/数据Stage层
- stgb: 从业务系统同步过来的原始数据,不保留历史数据
- stgd: 类似stgb,但利用「拉链表」保留历史数据
- dw: 数仓
- dwd: 数据明细层(Data Warehouse Detail),将相同主题的数据冗余处理,汇集到一张表中,提高可用性「主题宽表」
- 实际使用中也会在该层进行简单的数据清洗与转滤
- dwm: 数据中间层(Data WareHouse Middle),对数据做轻度聚合,提升公共指标的复用性
- 在 DWM 层先计算出多个小的中间表,然后再拼接成一张 DWS 的宽表
- dws : 数据服务层(Data WareHouse Servce),按照业务划分,生成大宽表,用户后续报表/业务查询、OLAP分析
- dws层的表实际中需要推送到关系型数据库中,所以dws附带一层
- dwd: 数据明细层(Data Warehouse Detail),将相同主题的数据冗余处理,汇集到一张表中,提高可用性「主题宽表」
- ads: 未启用
命名规范
- td: table dimension 维度表
- tm: table master 主数据表
- tt: table transaction 事实明细表
- ta: table aggregation 聚合结果表
- tc: table code 码表