数据仓库的分层设计


一、数据仓库分层的意义

1、明确数据结构
数据仓库分层后,每层完成特定的功能,易于开发管理,如果使用过程中有表数据出错,也便于定位

2、减少重复开发
规范数据分层,创建可复用的中间层数据,能够减少重复计算,提高效率

3、屏蔽原始数据
将统计数据与业务系统数据解耦,避免受业务系统变更的影响

二、数据仓库的层级

1、ODS(operation data store) 原始数据层
ODS层是贴近数据源的一层,一般是将原始数据直接载入,不进行数据清洗操作。
数据来源包括用户行为数据,如点击、浏览、分享等埋点日志数据,通常使用flume进行采集;也包含业务系统数据,如公司的交易数据,使用sqoop导入

2、DWD(data warehouse detail) 明细数据层
结构和粒度与原始表保持一致,对ODS层数据进行清洗,包括去除空值、脏数据、去除重复数据、异常值处理,也可以做局部聚合,将相同主题的数据汇总到同一张表中

3、DWS(data warehouse service) 服务数据层
该层主要加工生成宽表、中间表和维度表。
中间表:在DWD层的基础上对数据进行轻度聚合,根据不同主题或维度生成一系列中间表,以提升数据的复用性,减少重复加工
宽表:通常根据某一个维度,将不同主题的中间表拼接成一张宽表
维表:一种是商品信息、用户资料表等信息表,另一种是枚举值、编码与名称映射等配置表

4、ADS(application data store) 数据应用层
该层主要是根据具体需求指标,从DWS层中加工出结果表,可存储在Hive、ES、Redis中供数据分析和挖掘使用,也可以导出到Mysql、PostgreSql中作可视化展示使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值