构建数据仓库依赖的建模方法为维度建模。维度建模简单描述就是按照维度表,事实表来构建 数据仓库。事实就是一个度量单位,如浏览量,点赞量。维度就是上下文,如哪一天,谁,哪篇文章等。
数据仓库分为如下几层:
数据应用层(ADS) | |||
汇总数据层(DWS) | 公共维度层(DIM) | ||
明细数据层(DWD) | |||
原始数据层(ODS) |
1.原始数据层(ODS)
原始数据层为业务侧原始数据备份。通常按照日期进行分区存放。原始数据进入本层一般需要 进行数据清洗,把不符合条件数据进行清理掉。如格式错误数据或者属性不全的数据清除。
2.明细数据层(DWD)
明细数据层为原始数据层进行清洗,转换后的数据。
数据明细层建模需要根据业务维度构建业务总线矩阵。根据业务总线矩阵进行表建立。
数据域 | 业务过程 | 维度 | 度量 | |||
用户 | 时间 | 资源 | 文章 | |||
用户域 | 注册 | √ | √ | 次数1 | ||
登录 | √ | √ | 次数1 | |||
互动域 | 点赞 | √ | √ | √ | √ | 次数1 |
分享 | √ | √ | √ | √ | 次数1 | |
评论 | √ | √ | √ | √ | 次数1 | |
使用域 | 页面访问 | √ | √ | 次数1 | ||
资源点击 | √ | √ | 次数1 |
3.汇总数据层(DWS)
汇总数据层为明细数据层聚合统计后的数据。
汇总数据层数据建模需要根据业务需要。汇总数据层的指标分为:原子指标,派生指标和衍生指标。
3.1 原子指标
原子指标指的是基于业务过程
的度量值
,顾名思义是不可以在进行拆分的指标。
3.2 派生指标
派生指标是基于原子指标的 关系为
派生指标 = 原子指标 + 统计周期 + 业务+ 统计粒度
3.2 衍生指标
衍生指标是在一个或多个派生指标的基础上,通过各种逻辑运算符合而成的。
4.数据应用层(ADS)
数据应用层对应数据展示,为最终展示数据。