The Data Warehouse Toolkit 阅读笔记

本文介绍了数据仓库中星型模型的原理和应用场景,包括其优势、模型类型、如何处理维度变化,以及层级维度的处理方式。文章详细探讨了建模规范,如打平层级、退化维度、数据质量把控和实时计算,并分享了建模过程中的最佳实践和陷阱规避。
摘要由CSDN通过智能技术生成

前言

这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经

什么是星型模型

以一个业务事实为主表。比如一笔订单就是一个业务事实。订单有商品的SKU信息,销售市场信息,日期信息 ,这些基本属性,叫做维度。

雪花

一个产品维度,本身还有分类、包装等信息,也独立做成表,围绕在事实表身边,就像一片雪花。

为什么要用星型模型

  • OLTP针对的是线上事务,写多的场景,所以粒度要细。数仓模型的应用场景是数据分析,涉及大量查询,所以要少关联,多整合
  • 降低业务理解难度和复杂性,有些业务事实,跨了很多表,甚至跨了很多库,比如一个订单的生命周期,牵扯订单团队、仓储团队、物流团队。如果不建模,则需要所有使用数据的人员明白对应的业务细节,表的数据结构

三种模型类型

总结来看,事实表分为三种类型。

  • 事务事实表,比如一次商品销售记录
  • 周期快照表。按一定时间周期记录业务实体快照。比如记录每天的促销商品销售情况
  • 累计快照表,记录业务实体一些列业务流程变更的事实表
    数仓的数据模型,为了应对不同的OLAP场景,往往三者皆有之。他们三者之间的区别如下
累计事实模型

有些业务实体,会发生一系列的业务流程变更,在事实表中,使用一条记录,记录该业务实体各关键流程的所有信息,并随各业务事件的发生来更新这条记录,也就是一条记录会累计各种变化,叫做累计快照表。比如一个商品进入仓库的的整个流程可能有,收货,验货,装箱,运输等。其模型设计示例如下:

一行数据的变更示例如下:

累计快照事实表要保证流程节点个数确定有限。动态任意多个流程,不适合做成累计快照事实表,因为变化太频繁。

一个模型怎么定义

  • 选定业务事实 ,一条事实一定能回答谁、何时、何地、做了什么事,为什么要这么做,怎么做的?(who, when, where, what, why, and how)
  • 定义数据粒度,事实表的粒度一定要细,才能灵活承载更上层的各种逻辑口径的指标计算。
  • 标识维度表
  • 标识事实表

如何响应维度表的变化

维度表相对比较稳定,但也不是完全不会变化。比如用户的信息维度表,就可以变更用户的年龄,地址等

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据仓库工具包是一本关于数据仓库设计和实施的重要参考书籍。该书的PDF版本提供了便捷的电子阅读方式,并且可以在计算机、平板电脑和手机等设备上随时查阅。 《Data Warehouse Toolkit》一书是由Kimball团队撰写的经典之作。这本书详细介绍了数据仓库的各个方面,包括维度建模、事实表、维度表、缓慢变化维度、ETL过程等等。它提供了丰富的示例和案例,让读者可以深入理解如何构建一个高效、可靠的数据仓库数据仓库工具包的PDF版本可以方便地在实际操作中使用。通过电子阅读,读者可以随时翻阅书中的内容,查找需要的信息。无论是分析业务需求,设计数据模型,还是进行ETL开发,读者都可以通过PDF版本快速获取所需知识,提高工作效率。 此外,数据仓库工具包的PDF版本还具有便携性和可搜索性的优势。读者可以将该PDF文件存储在电子设备中,随时随地查阅书中内容,无需携带纸质书籍。同时,通过搜索功能,读者可以快速定位关键词,找到需要的信息,提高查找效率。 总而言之,数据仓库工具包的PDF版本是一本非常有价值的书籍,在数据仓库建设中发挥着重要的作用。它提供了丰富的知识和实例,让读者能够更好地理解和应用数据仓库的设计和实施。通过PDF版本,读者可以方便地获取所需信息,提高工作效率,同时还具有便携性和可搜索性的优势。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值