数据仓库—stg层_数据产品-数据仓库分层建模

最新推荐文章于 2024-07-08 23:38:22 发布

weixin_39986178

最新推荐文章于 2024-07-08 23:38:22 发布

阅读量2.2k

点赞数

文章标签：数据仓库—stg层

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39986178/article/details/111497059

版权

本文介绍了数据仓库的分层建模，包括STG（数据缓冲层）、ODS（操作数据层）、DWD（明细数据层）、DWS（汇总数据层）和DIM（公共维度层）。讨论了各层的功能和作用，如数据清洗、减少重复计算、统一数据口径，并提到了大数据环境下采用的混合模型设计以及不同层次使用的计算引擎和存储系统。

摘要由CSDN通过智能技术生成

说下自己的理解：

数据仓库是分层的，通常情况下都是进行三层建模(当然也不是绝对的)。

例如上次说的商品订单数据表，表字段可能有非常多个，但是我们使用的时候可能只用到UID，PayTime，CreateTime, PayMoney,等字段。这个过程需要不断的过滤。每过滤一层就需要在新的一层储存一次。类比在Hive中有个表分区的概念，把一张大表按照业务需求拆分为两张表，减少了扫描的量级。

下面说下常用的分层类型：

业务数据层：包含 STG(数据缓冲层)与 ODS(操作数据层)两层，这两层数据结构与业务数据几乎一致。

STG：也叫数据准备区，定位是缓存来自 DB 抽取、消息、日志解析落地的临时数据，结构与业务系统保持一致；负责对垃圾数据、不规范数据进行清洗转换；该层只为 ODS 层服务；

ODS：操作数据层定位于业务明细数据保留区，负责保留数据接入时点后历史变更数据，数据原则上全量保留。模型设计依据业务表数据变更特性采取拉链、流水表两种形式。(据我所知通常在大数据环境下，通常采取快照的形式，拉链表不好维度后期)

公共数据层：细分为 DWD(明细数据层)、DWS(汇总数据层)、DIM(公共维度层) 三层，主要用于加工存放整合后的明细业务过程数据，以及经过轻度或重度汇总粒度公共维度指标数据。公共数据层作为仓库核心层，定位于业务视角，提炼出对数据仓库具有共性的数据访问、统计需求，从而构建面向支持应用、提供共享数据访问服务的公共数据。

DWD：这一层是整合后的业务过程明细数据，负责各业务场景垂直与水平数据整合、常用公共维度冗余加工，以及明细业务

最低0.47元/天解锁文章

weixin_39986178

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据仓库—stg层_数据产品-数据仓库分层建模

说下自己的理解：数据仓库是分层的，通常情况下都是进行三层建模(当然也不是绝对的)。例如上次说的商品订单数据表，表字段可能有非常多个，但是我们使用的时候可能只用到UID，PayTime，CreateTime, PayMoney,等字段。这个过程需要不断的过滤。每过滤一层就需要在新的一层储存一次。类比在Hive中有个表分区的概念，把一张大表按照业务需求拆分为两张表，减少了扫描的量级。下面说下常用的分层...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。