对于数仓的初步认识

数仓(数据仓库)是一种面向主题,集成且稳定的数据集合,用于支持管理决策。数仓分层的主要原因是为了提升效率,简化清洗过程,确保数据正确性,并便于血缘追踪和减少重复开发。常见的分层包括数据源层(ODS)、数据明细层(DW)、数据轻度汇总层(DM)和数据应用层(APP)。分层结构使得数据关系条理化,同时屏蔽了原始数据的影响,保证了应用层的稳定性。
摘要由CSDN通过智能技术生成

在谈数仓之前,先来看下面几个问题:

什么是数仓

        数仓,全称就是数据仓库是一个面向主题集成的相对稳定的反映历史变化的数据集合通常用于支持管理决策这里的主题指的是为了分析数据而创造产生的各种有助于决策的数据模型

数仓为什么要分层?

1、

        用空间换时间,通过大量的预处理来提升应用系统的用户体验效率),因此数据仓库会存在大量冗余的数据不分层的话如果源业务系统的业务规则发生变化将会影响整个数据清洗过程工作量巨大

2、

        通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成相当于把一个复杂的工作拆成了多个简单的工作把一个大的黑盒变成了一个白盒每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性当数据发生错误的时候往往我们只需要局部调整某个步骤即可

分层的好处

1、

        清晰数据结构:每一个数据分层都有对应的作用域,在使用数据的时候能更方便的定位和理解。

2、

        数据血缘追踪:提供给业务人员或下游系统的数据服务时都是目标数据,目标数据的数据来源一般都来自于多张表数据。若出现目标数据异常时,清晰的血缘关系可以快速定位问题所在。而且,血缘管理也是元数据管理重要的一部分。

3、

        减少重复开发:数据的逐层加工原则,下层包含了上层数据加工所需要的全量数据,这样的加工方式避免了每个数据开发人员都重新从源系统抽取数据进行加工。

4、

        数据关系条理化源系统间存在复杂的数据关系比如客户信息同时存在于核心系统信贷系统理财系统资金系统取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。

5、

        屏蔽原始数据的影响:数据的逐层加工原则,上层的数据都由下一层的数据加工获取,不允许跳级取数。而原始数据位于数仓的最底层,离应用层数据还有多层的数据加工,所以加工应用层数据的过程中就会把原始数据的变更消除掉,保持应用层的稳定性。

分层结构

数据层具体实现

        1、数据源层ODS

        2、数据明细层DW

        3、数据轻度汇总层DM

        4、数据应用层APP

仓库的构建整体流程

详细链接:https://bbs.fanruan.com/thread-137455-1-1.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值