第七章 数据仓库的链路优化

1、CDM概述

  • CDM:公共数据层,由DWD+DWS+ADS+DIM共同构成

(1)DWD核心:公共处理逻辑收敛和下沉

(2)DWS+ADS的核心:统一公共指标和公共维度,减少数据的不一致性

(3)DIM核心:建立整个业务范围内的一致性维度,并确保使用;

2、公用数据沉淀

  • CDM层需不断根据上游的数据需求,将公用数据沉淀到CDM层,为其他的数据需求提供服务,减少重复计算并统一口径,开发过程是不断迭代的

3、链路长度度量

(1)长度限制:CDM层链路不宜过长,如果过长,请考虑复用&重构;

(2)深度限制:CDM层链路深度不宜过大,单个任务连路控制在一小时以内,否则数据重跑时间成本过大;

4、查询优先级别

(1)ADS层和临时查询:优先使用CDM层数据

(2)若ODS层数据没有沉淀到CDM,则通过新建CDM层的视图访问

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
数据开发与分析全链技术是指从数据采集、清洗、存储、处理,到数据分析和可视化等环节的全过程技术。它涉及到数据工程、数据治理、数据分析和数据可视化等多个领域的技术和方法。 数据开发是指将原始数据进行整理、清洗、转换和加载等处理,使之成为可供分析使用的数据集。这个过程包括数据的提取、转换和加载(ETL),以及数据的清洗、去重、填充等处理。数据开发需要熟悉数据处理工具和编程语言,如SQL、Python、Scala等,以及数据仓库技术和数据流处理技术等。 数据分析是指对已经处理好的数据进行统计分析、挖掘和建模等操作,以获取有价值的信息和洞察。数据分析技术包括统计分析、机器学习、数据挖掘、预测建模等方法。数据分析师需要熟悉数据分析工具和编程语言,如R、Python、SPSS等,以及统计学和机器学习等相关知识。 数据可视化是指将数据分析的结果以可视化的方式展示出来,使之更加直观和易于理解。数据可视化技术包括图表、仪表盘、报表等展示形式,以及可视化工具和库,如Tableau、Power BI、matplotlib等。数据可视化需要考虑数据的可视化设计原则和用户需求,以及数据的交互性和动态性等。 数据治理是指对数据进行管理和规范,保证数据的质量、一致性和安全性。数据治理涉及到数据质量管理、数据安全管理、数据合规性等方面的技术和方法。数据治理需要考虑数据的元数据管理、数据质量评估、数据隐私保护等问题。 综上所述,数据开发与分析全链技术是为了实现从数据采集到数据分析和可视化的全过程,涉及到数据工程、数据治理、数据分析和数据可视化等多个领域的技术和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

随缘清风殇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值