Hadoop—数据仓库分层介绍

在这里插入图片描述

数据仓库

介绍

概念

1)DW, data warehouse,数据仓库,也称为数仓。
2)数仓,就是存储数据的一个仓库。

数据分层

1)数据服务层:ADS, Application Data Service
2)数据仓库层:DW, Data Warehouse,包含DWD,DWB,DWS
3)数据运营层:ODS, Operational Data Store

优点

1)明确数据分层结构:使用分层机制,每层权责分明,使用表时便于定位排查,便于血缘追踪。同时,通过分层,将复杂任务拆解多个步骤处理,便于维护数据准确性。
2)减少重复开发:逐步处理,最上层ADS需要数据时,可以复用中间层级的处理后的数据,无需从最下一层提取,提升数据处理速度。
3)屏蔽原始数据的异常:更上一层的数据都是从下一层或者下多层处理而来,下层数据丢失,上层数据还存在(数据冗余机制),对于整体数据而言不会对应用产生灾难性影响,

数仓分层

分层概念和结构

在这里插入图片描述

ADS

1)数据应用层、数据结果层:ADS, Application Data Service。
2)一般都是结果类型数据,可直接使用或展示,存放在Es、Redis、PostgreSql等系统中,面向数据分析和挖掘使用,主要存放数据产品个性化的一些统计指标数据,如经过数据公共层CDM和数据贴源层ODS加工生成的数据报表等。
3)属于最顶层,一般直接对接OLAP分析或业务层数据调用接口,由也无需求决定数据维度和结果分析。

DW
DWS

1)数据服务层、数据汇总层、数据聚合层:DWS, Data Warehouse Service。
2)在DWM基础上,整合汇总成一个主题的数据服务层,一般是宽表。
3)使用主题建模、维度建模等方式建模。

DWB

1)数据基础层、数据中间层:DWB,Data Warehouse Base。
2)存储客观数据,一般用作中间层,存有大量指标。

DWD

1)数据明细层:DWD, Data Warehouse Detail。
2)结构和力度与ODS保持一致,对ODS层数据进行清洗(如去除空值、去除脏数据等),在该层中有ETL(extract transform load, 提取转换加载处理),存储维度表、事实表、实体表等数据。3)在DWD中,一般会做数据映射,如将时间转为年月日等维度信息,将手机号码转为省市区运营商类型等。
4)DWD是业务层与数据仓库之间的隔离层。

ODS

1)数据贴源层:ODS, Operational Data Store。
2)存放原始数据,直接加载原始日志等数据

其他概念

表类型

1)维度表:存储的维度信息,数据量不会很大。
2)事实表:存储一些事实信息 ,如订单、购物车等信息,数据量较大。
3)实体表:存储描述信息,如商品优惠券表等,数据量主要看变化程度。

建模类型

1)主题建模:围绕某个业务主体进行数据建模,将相关数据抽离提取出来。
2)维度建模:根据业务需要,提前将后续数据查询处理需要的维度数据抽离出来,便于后续查询使用。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值