DW

DW(Data Warehouse):数据仓库是一套分主题搭建的数据库,可用来支持后续数据查询分析、OLAP系统建设以及实时数据建模等工作。由于DW数仓通常搭建在Hadoop集群上,所以背后还有很多Hadoop集群性能和特点需要同时关注和了解,来提高数据查询的效率,比如数据倾斜问题的解决。数据仓库的上游数据取自上报日志数据,这里就和数据埋点到数据采集再到数据上报一系列流程有关。通常,数据仓库会分为以下几类层级来搭建,从底层往上层依次为:基础数据层(维度层、明细层)、主题统计层、主题标签层、主题汇总层。数据仓库结构层级在不同公司的叫法不同,也可按照DIM层(维度)、DWD层(流水)、DWS层(汇总)、ADS层来区分。
基础数据层
包括维度数据和明细数据两部分,维度数据是用来存储数据字段以及各主键基础属性字段,比如说用户维度表包含用户ID、性别、年龄、手机型号等信息。明细数据是对ODS层的日志数据进行异常值过滤和基础信息关联,但不做聚合统计处理,又可称为流水数据。
主题统计层
搭建完基础数据层的数据表之后,就可以分主题的去设计上层表了。拿外卖业务举例,主题可以分为商家侧和用户侧,商家侧存储和后续商家分析相关的数据,用户侧存储和后续用户消费分析相关的数据。主题统计层则是对用户行为进行聚合计算统计。
主题标签层
用户标签和其他通过基础统计或机器学习产出的标签都可以存在标签层的表中。
主题汇总层
把一个主题下的统计层和标签层的数据表做关联,形成一个大且宽的汇总表,方便后续分析师和业务人员查询数据使用。而且在底层逻辑更新的情况下,上层可以实现无感知地被使用。
表命名规则和数仓的使用规范
整个数据仓库应该有一套统一的命名规则&#x

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值