离线数仓的数仓分层

数据仓库通过分层实现结构化清晰、血缘追踪、减少重复开发和简化复杂问题。ODS层保存原始数据,FDS层进行预处理,DIM层存储维度数据,DWD层构建维度模型,DWS层做初步汇总,ADS层直接提供服务。数据集市满足特定用户需求。
摘要由CSDN通过智能技术生成

数据仓库分层的作用

数据结构化更清晰:

对于不同层级的数据,他们作用域不相同,每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

数据血缘追踪:

提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。

减少重复开发:

数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务表的使用率。

简化复杂的问题:

把一个复杂的业务分成多个步骤实现,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。有点类似Spark RDD的容错机制。

减少业务的影响:

业务可能会经常变化,这样做就不必改一次业务就需要重新接入数据。

数据仓库分层的介绍

 

ods层:保留数据的原始性

ODS层保存所有操作数据,不对原始数据做任何处理。在业务系统和数据仓库之间形成一个隔离,源系统数据结构的变化不影响其他数据分层。减轻业务系统被反复抽取的压力,由ODS统一进行抽取和分发。

fds层:对数据进行解析过滤映射等操作

对于数据进行简单的过滤操作(null值),对数据进行中的json类型进行解析,某些情况对接多个数据源的时候,不同字段名的含义是相同的,要对字段进行映射,还有对日期格式转换。

dim层:公共维表层

存放一些维度数据,如用户的信息,商品的信息,但对于不同的维度信息有不同的实现方式(

缓慢变化维通过拉链表实现,全量同步实现

dwd层:对数据进行维度模型建设

对于fds层拿到的数据,是业务数据,需要遵循三范式,但对于数据仓库来说,重要的是对数据进行分析,所以我们要将业务数据与多个维度进行关联,得到一个多维度的明细数据

dws层:对数据进行初步的汇总

对dwd层拿到的数据,进行初步的聚合,做一些多维度多指标的大宽表。

ads层:直接做数据服务的层

对接于业务需求的层级,直接对外提供服务。

数据集市
狭义ADS层; 广义上指hadoop从DWD DWS ADS 同步到RDS的数据

数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。

离线数仓分层设计通常包括贴源层(ODS)、明细层(DWD)、维度层(DIM)、轻度聚合层(DWS)、主题层(DWT)、数据中间层(DWM)和结果展示层(ADS)\[1\]。 贴源层(ODS)是数仓中最底层的层次,用于接收和存储原始数据。在这一层,数据被抽取、清洗和转换为可用于后续处理的格式。 明细层(DWD)是在贴源层之上的一层,用于存储经过处理和加工的原始数据。在这一层,数据被进行清洗、整合和转换,以满足业务需求。 维度层(DIM)是用于存储维度数据的层次。维度表是基于原始数据层提取公共指标进行维度建模的结果\[2\]。在这一层,维度数据被提取出来,并与事实数据进行关联。 轻度聚合层(DWS)是在明细层之上的一层,用于存储经过聚合的数据。在这一层,数据被进行聚合操作,以提高查询性能和减少数据量。 主题层(DWT)是在轻度聚合层之上的一层,用于存储按照业务主题组织的数据。在这一层,数据被按照业务主题进行组织和汇总,以支持特定的分析和报表需求。 数据中间层(DWM)是用于存储数据处理过程中的中间结果的层次。在这一层,数据被用于支持数据处理的各个阶段,例如数据清洗、转换和集成。 结果展示层(ADS)是数仓中最顶层的层次,用于存储最终的分析结果和报表数据。在这一层,数据被用于生成各种分析报表和可视化展示。 离线数仓分层设计可以根据具体业务需求和数据处理流程进行灵活调整,但通常遵循以上的基本分层结构\[1\]。 #### 引用[.reference_title] - *1* *2* [离线数仓分层(基础)](https://blog.csdn.net/wind96/article/details/127641942)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [离线数仓 (八) --------- 数仓分层](https://blog.csdn.net/m0_51111980/article/details/127491547)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值