数据仓库【4】:最佳实践

1、表的分类

维度建模中的表类型

  • 事实表
  • 维度表
  • 事务事实表
  • 周期快照事实表
  • 累积快照事实表
  • 拉链表

1.1、事实表

  • 一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等
    在这里插入图片描述

1.2、维度表

  • 一般是指对应一些业务状态,代码的解释表。也可以称之为码表
  • 通常使用维度对事实表中的数据进行统计、聚合运算
    在这里插入图片描述

1.3、事务事实表

  • 随着业务不断产生的数据,一旦产生不会再变化,如交易流水、操作日志、出库入库记录
    在这里插入图片描述

1.4、周期快照事实表

  • 随着业务周期型的推进而变化,完成间隔周期内的度量统计,如年、季度累计
  • 使用周期+状态度量的组合,如年累计订单数,年是周期,订单总数是量度
    在这里插入图片描述

1.5、累积快照事实表

  • 记录不确定周期的度量统计,完全覆盖一个事实的生命周期,如订单状态表
  • 通常有多个时间字段,用于记录生命周期中的关键时间点
  • 只有一条记录,针对此记录不断更新
    在这里插入图片描述

1.6、拉链表

  • 拉链表记录每条信息的生命周期,用于保留数据的所有历史(变更)状态
  • 拉链表将表数据的随机修改方式,变为顺序追加
    在这里插入图片描述

实现方式一

  • 使用日期分区表,全量数据记录,每天的分区存储昨天全量数据与当天增量数据合并的结果
  • 数据量大会导致全量表膨胀,存储大量永远不更新的冷数据,对性能影响较大
  • 适用于数据量少的情况
    实现方式二
  • 使用日期分区表,推测数据最长生命周期,存储周期内数据;周期外的冷数据存储到归档表
  • 需要保留多天的分区数据,存储消耗依然很大
    实现方式三
  • 使用日期分区表,以业务实体的结束时间分区,每天的分区存放当天结束的数据;设计一个
    时间非常大的分区,如9999-12-31,存放截止当前未结束的数据
  • 已结束的数据存放到相应分区,存放未结束数据的分区,数据量也不会很大,ETL性能好
  • 无存储浪费,数据全局唯一
  • 业务系统可能无法标识业务实体的结束时间,可以使用其它相关业务系统的结束标志作为此
    业务系统的结束,也可以使用最长生命周期时间或前端系统的数据归档时间

2、ETL策略

2.1、全量同步

  • 数据初始化装载一定使用全量同步的方式
  • 因为业务、技术原因,使用全量同步的方式做周期数据更新,直接覆盖原有数据即可

2.2、增量同步

  • 传统数据整合方案中,大多采用merge方式(update+insert)
  • 主流大数据平台不支持update操作,可采用全外连接+数据全量覆盖方式
    • 如果担心数据更新出错,可以采用分区方式,每天保存最新的全量版本,保留较短周期
      在这里插入图片描述

3、任务调度

3.1、为什么需要任务调度?

  • 解决任务单元间的依赖关系
  • 自动化完成任务的定时执行

3.2、常见任务类型

  • Shell
  • Java程序
  • Mapreduce程序
  • SQL脚本
    在这里插入图片描述

3.3、常见调度工具

  • Azkaban
  • Oozie
    在这里插入图片描述
  • 24
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《数据中台架构——企业数据化最佳实践》PDF是一本关于企业数据化的实践指南。该指南介绍了数据中台架构的概念和作用,以及在企业数据化过程中的最佳实践方法。 在这本指南中,首先对数据中台架构进行了详细的介绍。数据中台是一种将企业内外部数据集中管理和应用的架构模式。它通过统一的数据仓库、数据治理和数据服务层,实现了数据的集中管理和共享,提供了高效的数据支持和应用的基础设施。 指南还详细介绍了数据中台的组成部分和关键技术。数据中台包括数据采集、数据清洗、数据仓库、数据治理和数据服务等模块。指南提出了构建数据中台的最佳实践方法,如采用数据湖架构、数据流水线技术和分布式计算等。 此外,指南还强调了数据中台在企业数据化中的重要性和优势。数据中台能够实现数据的一致性和准确性,提供了高质量的数据支持和决策分析能力。它还可以加速企业创新和业务发展,提升企业竞争力和运营效率。 在最后的部分,指南提供了落地数据中台的实践经验和案例分析。通过实际的案例,指南展示了如何根据企业的特点和需求,制定适合的数据中台架构和实施方案。 总之,《数据中台架构——企业数据化最佳实践》PDF是一本详细介绍数据中台架构和最佳实践方法的指南。通过学习这本指南,企业可以了解数据中台的概念和作用,掌握构建数据中台的关键技术和方法,并且通过实践案例的分析,获得落地数据中台的实践经验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

QQ719872578

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值