数据仓库的分层设计

最新推荐文章于 2024-09-18 17:34:52 发布

剁椒鱼不要头

最新推荐文章于 2024-09-18 17:34:52 发布

阅读量454

点赞数

分类专栏：数据仓库文章标签：数据仓库大数据数据分析数据挖掘数据建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mcajax/article/details/104315625

版权

数据仓库专栏收录该内容

7 篇文章 2 订阅

订阅专栏

一、数据仓库分层的意义

1、明确数据结构
数据仓库分层后，每层完成特定的功能，易于开发管理，如果使用过程中有表数据出错，也便于定位

2、减少重复开发
规范数据分层，创建可复用的中间层数据，能够减少重复计算，提高效率

3、屏蔽原始数据
将统计数据与业务系统数据解耦，避免受业务系统变更的影响

二、数据仓库的层级

1、ODS(operation data store) 原始数据层
ODS层是贴近数据源的一层，一般是将原始数据直接载入，不进行数据清洗操作。
数据来源包括用户行为数据，如点击、浏览、分享等埋点日志数据，通常使用flume进行采集；也包含业务系统数据，如公司的交易数据，使用sqoop导入

2、DWD(data warehouse detail) 明细数据层
结构和粒度与原始表保持一致，对ODS层数据进行清洗，包括去除空值、脏数据、去除重复数据、异常值处理，也可以做局部聚合，将相同主题的数据汇总到同一张表中

3、DWS(data warehouse service) 服务数据层
该层主要加工生成宽表、中间表和维度表。
中间表：在DWD层的基础上对数据进行轻度聚合，根据不同主题或维度生成一系列中间表，以提升数据的复用性，减少重复加工
宽表：通常根据某一个维度，将不同主题的中间表拼接成一张宽表
维表：一种是商品信息、用户资料表等信息表，另一种是枚举值、编码与名称映射等配置表

4、ADS(application data store) 数据应用层
该层主要是根据具体需求指标，从DWS层中加工出结果表，可存储在Hive、ES、Redis中供数据分析和挖掘使用，也可以导出到Mysql、PostgreSql中作可视化展示使用

剁椒鱼不要头

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。