数据分层(方法论)

如何设计数据分层

数据仓库分为下面三个层:
数据运营层(ODS )
数据仓库层(DWD、DWB、DWS)
数据产品层(APP)

第1层:数据运营层(ODS: operational data store)

在这里插入图片描述
作用:数据抽取、数据溯源
在这层是简单的数据接入,原封不动地接入原始数据即可,数据的去噪、去重、异常值处理等过程放在后面的DWD层来做。

第2.1层:明细层(DWD: data warehouse detail)

在这里插入图片描述
作用:记账、发货使用
在这层不是简单的数据接入,而是要考虑一定的数据清洗,比如异常字段的处理、字段命名规范化、时间字段的统一等,一般这些很容易会被忽略,但是却至关重要。比如用户的资料信息来自于很多不同表,而且经常出现延迟丢数据等问题,为了方便各个使用方更好的使用数据,可以在这一层做屏蔽。

第2.2层:轻度汇总层(MID或DWB: data warehouse basis)

在这里插入图片描述
作用:用户结账,分析使用
DWB与DWD的主要区别在于二者的应用领域不同,DWD的数据来源于生产型系统,并未满足一些不可预见的需求;轻度综合层则面向分析型应用进行细粒度的统计和沉淀。

第2.3层:主题层(DM或DWS: data warehouse service)

在这里插入图片描述
作用:BI统计使用
主题层又称数据集市或宽表。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。

第3层:应用层(APP)

应用层是根据业务需要,由前面三层数据统计而出的结果,可以直接提供查询展现,或导入至oracle/mysql中使用。比如出一张画像表:包含用户资料和用户近一年的行为。

其它层(DIM、TMP)

在这里插入图片描述
DIM作用:控制权限、分类统计使用

高基数维度数据:一般是用户资料表、商品资料表类似的资料表(数据量千万/亿级别)
低基数维度数据:一般是配置表,比如国家代码、大区代码、经销商代码;日期维表(数据量千/万级别)

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值