通俗理解数据仓库的运行流程

本文仅为个人观点,适用于我所接触到的大数据平台

看完理解了就点个赞叭~

一、数据仓库 DW

       数据仓库:data warehouse,顾名思义是存放数据的地方。是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
       那么我所接触的产品是如何建立数据仓库的呢?大致分为STAGE层、ODS层、DWD、DWA、DM。

1.STAGE层
        STAGE层是数据仓库数据的登台层,既将各种分散来源的数据加载到数据仓库中。Stage层中装的都是最原始的数据,是需要进行后面处理的数据。

2.ODS层
       ODS是英文名 operation data store的缩写。常被作为数据仓库的数据处理的过渡,以降低直接进行数据处理的复杂度。什么意思呢?ODS就是把stage层中的数据进行初步的处理,因为stage层中的数据量大且复杂,ODS按生产系统规范统一数据模型和数据编码,同时对于数据源系统的数据质量进行稽核,保证进入数据仓库数据的完整性。
如何更通俗点理解呢,比如stage层中存放着“A、1、B、C、26、你好”这些分散没有结构的数据。那么到了ODS层中这些数据就变成了
“字母:A、B、C;
数字:1、26;
汉字:你好”
只是打个比方,具体内容不会是这样简单。

3.DWD层

       DWD(data warehouse detail data)是数据仓库的细节数据层。为企业各种分析类应用提供细节性数据支持,是企业数据仓库的核心,同时为未来需求的扩展提供历史数据支持。
通俗理解:我们之前不是在ODS层中已经规范统一了数据模型和编码了吗,拿我们打电话的场景来说。我们在一天内可以打很多通电话,每一通电话都是一条数据。比如:
“时间:3月1号8:00;
拨打人:猪蹄;
拨打时长:3分钟;
花费:0.5元;”
这是一条经过stage层和ODS层处理过来存放在DWD层中的数据,记住这是一条数据,我们可以打很多电话,所以有很多条类似这种结构的数据,这是都是历史上的细节数据,各个属性都很详细。
在DWD中就存放了:
一:“时间:3月1号8:00;拨打人:猪蹄;拨打时长:3分钟;花费:0.5元;”
二:“时间:3月1号9:30;拨打人:猪蹄;拨打时长:20分钟;花费:6元;”
三:“时间:3月2号12:30;拨打人:红烧;拨打时长:13分钟;花费:4元;”
四:。。。。。。。。。。。。。。。。。。。。。。。。。。
五:。。。。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。。。。
这就是DWD需要做的事情,存放每一条细节数据。

4.DWA层
       DWA(data warehouse aggregate data),是数据仓库的衍生汇总数据层,该层通过对DWD层数据进行预处理(轻度汇总、衍生),提高了后续数据处理和访问性能,其特点是面向应用但不直接支持应用,将应用过程中的常用信息进行共同沉淀和处理,作为DWD层和DM层之间的一个过渡层次,与DWD层共同构成企业级数据仓库。
       理解:DWA层是对DWD层的进一步汇总衍生处理,继续拿打电话的场景来说。通过汇总DWD中的每一条数据,我们可以得到这样一条月数据:

“姓名:猪蹄;
一个月内拨打时长:89分钟;
花费:70元;”

       这里的数据是通过汇总统计的,那么衍生是什么意思呢?比如这里可以通过一个月的话费判断你是什么样的人士:一个月话费大于50元属于高端人士,20-50属于中端人士,低于20属于低端人士。那么上一条月数据就可以多了一个属性:

“姓名:猪蹄;
一个月内拨打时长:89分钟;
花费:70元;
属于:高端人士;”

“姓名:红烧;
一个月内拨打时长:15分钟;
花费:18元;
属于:低端人士;”

这就是衍生出来的数据。

5.DM层
       DM是data market,数据集市。这里的DM就是面向应用了。可以理解为应用层。DM层可以从DWA层中获取有需要的数据,是一个面向服务的阶段。我们可以利用衍生出来的数据进行精准营销等服务。比如打电话:

“姓名:猪蹄;
一个月内拨打时长:89分钟;
花费:70元;
属于:高端人士;”

通过前面处理的数据,我们可以为猪蹄先生推销高额套餐:月租100,通话免费。
为红烧先生推销廉价套餐:月租20,免费通话20分钟。为不同人群提供不同服务。

以上,就是个人理解的数据仓库的流程,欢迎评论交流。

  • 10
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多粒度数据集成是指将来自不同次或不同粒度的数据整合在一起,以便进行全面、多角度的数据分析和决策。通俗来说,就是将不同次或细化程度的数据整合在一起,以获得更全面、更准确的数据视图。 想象一下你有多个数据源,每个数据源提供的数据可能有不同的粒度或次。比如,你可能有销售数据,其中包括每日、每周、每月和每年的销售额;同时你还有客户数据,其中包括每个客户的购买历史和偏好。多粒度数据集成就是将这些不同粒度的数据整合在一起,形成一个综合的数据集。 通过多粒度数据集成,可以实现以下好处: - 全面分析:通过将不同次或不同粒度的数据整合在一起,可以进行全面的数据分析和比较,从多个角度深入研究数据。 - 更准确的洞察:通过集成多粒度的数据,可以获得更准确、更全面的洞察和分析结果,帮助做出更明智的决策。 - 趋势和模式识别:通过比较不同粒度的数据,可以发现趋势和模式,了解数据的发展和变化趋势。 - 决策支持:多粒度数据集成可以提供更全面的数据支持,帮助企业制定更有针对性的决策和战略。 - 数据一致性:通过集成不同次的数据,可以确保数据的一致性和准确性,避免了数据冗余和不一致的问题。 总的来说,多粒度数据集成是将不同次或不同粒度的数据整合在一起,以获得更全面、更准确的数据视图。它可以帮助企业深入分析和理解数据,发现趋势和模式,并支持更明智的决策制定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值