对于数仓的初步认识

duenqi666

已于 2022-02-24 16:20:07 修改

阅读量982

点赞数 1

分类专栏：数仓文章标签：数据仓库

于 2022-02-24 14:40:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43247999/article/details/123111219

版权

数仓专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数仓（数据仓库）是一种面向主题，集成且稳定的数据集合，用于支持管理决策。数仓分层的主要原因是为了提升效率，简化清洗过程，确保数据正确性，并便于血缘追踪和减少重复开发。常见的分层包括数据源层（ODS）、数据明细层（DW）、数据轻度汇总层（DM）和数据应用层（APP）。分层结构使得数据关系条理化，同时屏蔽了原始数据的影响，保证了应用层的稳定性。

摘要由CSDN通过智能技术生成

在谈数仓之前，先来看下面几个问题：

什么是数仓？

数仓，全称就是数据仓库，是一个面向主题，集成的，相对稳定的，反映历史变化的数据集合，通常用于支持管理决策。这里的主题指的是为了分析数据而创造产生的各种有助于决策的数据模型。

数仓为什么要分层？

1、

用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。

2、

通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。

分层的好处？

1、

清晰数据结构：每一个数据分层都有对应的作用域，在使用数据的时候能更方便的定位和理解。

2、

数据血缘追踪：提供给业务人员或下游系统的数据服务时都是目标数据，目标数据的数据来源一般都来自于多张表数据。若出现目标数据异常时，清晰的血缘关系可以快速定位问题所在。而且，血缘管理也是元数据管理重要的一部分。

3、

减少重复开发：数据的逐层加工原则，下层包含了上层数据加工所需要的全量数据，这样的加工方式避免了每个数据开发人员都重新从源系统抽取数据进行加工。

4、

数据关系条理化：源系统间存在复杂的数据关系，比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统，取数时该如何决策呢？数据仓库会对相同主题的数据进行统一建模，把复杂的数据关系梳理成条理清晰的数据模型，使用时就可避免上述问题了。

5、

屏蔽原始数据的影响：数据的逐层加工原则，上层的数据都由下一层的数据加工获取，不允许跳级取数。而原始数据位于数仓的最底层，离应用层数据还有多层的数据加工，所以加工应用层数据的过程中就会把原始数据的变更消除掉，保持应用层的稳定性。

分层结构？

数据层具体实现

1、数据源层ODS

2、数据明细层DW

3、数据轻度汇总层DM

4、数据应用层APP

仓库的构建整体流程

详细链接：https://bbs.fanruan.com/thread-137455-1-1.html

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。