通俗理解数据仓库的运行流程

最新推荐文章于 2024-05-07 20:03:23 发布

我想吃红烧猪蹄

最新推荐文章于 2024-05-07 20:03:23 发布

阅读量2.5k

点赞数 10

本文链接：https://blog.csdn.net/weixin_43173093/article/details/103137747

版权

本文仅为个人观点，适用于我所接触到的大数据平台

看完理解了就点个赞叭~

一、数据仓库 DW

数据仓库：data warehouse，顾名思义是存放数据的地方。是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。
那么我所接触的产品是如何建立数据仓库的呢？大致分为STAGE层、ODS层、DWD、DWA、DM。

1.STAGE层
STAGE层是数据仓库数据的登台层，既将各种分散来源的数据加载到数据仓库中。Stage层中装的都是最原始的数据，是需要进行后面处理的数据。

2.ODS层
ODS是英文名 operation data store的缩写。常被作为数据仓库的数据处理的过渡，以降低直接进行数据处理的复杂度。什么意思呢？ODS就是把stage层中的数据进行初步的处理，因为stage层中的数据量大且复杂，ODS按生产系统规范统一数据模型和数据编码，同时对于数据源系统的数据质量进行稽核，保证进入数据仓库数据的完整性。
如何更通俗点理解呢，比如stage层中存放着“A、1、B、C、26、你好”这些分散没有结构的数据。那么到了ODS层中这些数据就变成了
“字母：A、B、C；
数字：1、26；
汉字：你好”
只是打个比方，具体内容不会是这样简单。

3.DWD层

DWD（data warehouse detail data）是数据仓库的细节数据层。为企业各种分析类应用提供细节性数据支持，是企业数据仓库的核心，同时为未来需求的扩展提供历史数据支持。
通俗理解：我们之前不是在ODS层中已经规范统一了数据模型和编码了吗，拿我们打电话的场景来说。我们在一天内可以打很多通电话，每一通电话都是一条数据。比如：
“时间：3月1号8:00；
拨打人：猪蹄；
拨打时长：3分钟；
花费：0.5元；”
这是一条经过stage层和ODS层处理过来存放在DWD层中的数据，记住这是一条数据，我们可以打很多电话，所以有很多条类似这种结构的数据，这是都是历史上的细节数据，各个属性都很详细。
在DWD中就存放了：
一：“时间：3月1号8:00；拨打人：猪蹄；拨打时长：3分钟；花费：0.5元；”
二：“时间：3月1号9:30；拨打人：猪蹄；拨打时长：20分钟；花费：6元；”
三：“时间：3月2号12:30；拨打人：红烧；拨打时长：13分钟；花费：4元；”
四：。。。。。。。。。。。。。。。。。。。。。。。。。。
五：。。。。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。。。。
这就是DWD需要做的事情，存放每一条细节数据。

4.DWA层
DWA（data warehouse aggregate data），是数据仓库的衍生汇总数据层，该层通过对DWD层数据进行预处理（轻度汇总、衍生），提高了后续数据处理和访问性能，其特点是面向应用但不直接支持应用，将应用过程中的常用信息进行共同沉淀和处理，作为DWD层和DM层之间的一个过渡层次，与DWD层共同构成企业级数据仓库。
理解：DWA层是对DWD层的进一步汇总衍生处理，继续拿打电话的场景来说。通过汇总DWD中的每一条数据，我们可以得到这样一条月数据：

“姓名：猪蹄；
一个月内拨打时长：89分钟；
花费：70元；”

这里的数据是通过汇总统计的，那么衍生是什么意思呢？比如这里可以通过一个月的话费判断你是什么样的人士：一个月话费大于50元属于高端人士，20-50属于中端人士，低于20属于低端人士。那么上一条月数据就可以多了一个属性：

“姓名：猪蹄；
一个月内拨打时长：89分钟；
花费：70元；
属于：高端人士；”

“姓名：红烧；
一个月内拨打时长：15分钟；
花费：18元；
属于：低端人士；”

这就是衍生出来的数据。

5.DM层
DM是data market，数据集市。这里的DM就是面向应用了。可以理解为应用层。DM层可以从DWA层中获取有需要的数据，是一个面向服务的阶段。我们可以利用衍生出来的数据进行精准营销等服务。比如打电话：

“姓名：猪蹄；
一个月内拨打时长：89分钟；
花费：70元；
属于：高端人士；”

通过前面处理的数据，我们可以为猪蹄先生推销高额套餐：月租100，通话免费。
为红烧先生推销廉价套餐：月租20，免费通话20分钟。为不同人群提供不同服务。

以上，就是个人理解的数据仓库的流程，欢迎评论交流。

我想吃红烧猪蹄

关注

10
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
通俗理解数据仓库的运行流程

本文仅为个人观点，适用于我所接触到的大数据平台一、数据仓库 DW       数据仓库：data warehouse，顾名思义是存放数据的地方。是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。       那么我所接触的产品是如何建立数据仓库的呢？大致分为STAGE层、ODS层、DWD、DWA、D...
复制链接

扫一扫