拆书稿:《Building the Data Warehouse》(数据仓库 第四版)
最近复盘数据仓库的相关技术,在网上搜了好多关于数仓的帖子,看完之后就是感觉有肉无血,串不起来。因为好多都是介绍数仓的两种建模基本理论,但是付诸于实践的时候感觉还是无从下手。所以才决心整理一下自己这几年的数仓经验。分享给大家,刚开始写帖子,有需要改进的地方大家可以留言给我,或者有什么需要反馈的问题都可以给我留言或者评论。
阅读建议:全文可能比较长,建议先收藏在细读
前言
数据仓库可能大家非常熟悉的两位建模理论的创始人:William H.Inmon 和 Ralph Kimball,对应的 Inmon 主要的模型是:实体-关系模型, Kimball主导的模型是:维度模型
本片文章的目录:
0.数据库三范式回顾
1.《Building the Data Warehouse》的目录
2.全书摘要(个人见解)
3. 重要章节技术点详细讲解
第二章 数据仓库环境
粒度
分区
第三章 设计数据仓库
数据仓库与数据模型
规范化与反向规范化
元数据
数据周期
转换和集成
星形连接
四类ODS
第四章: 数据仓库中的粒度
第六章: 分布式数据仓库
第十三章 关系模型和多维模型数据库设计基础
4. 全书重点章节的脑图(由于图片比较长所以放在最后显示)
0.数据库三范式回顾
- 第一范式: 保证数据表的原子性,就是列不可再分,保证不会出现重复的列。是关系模式规范化的最低要求
- 第二范式: 表的非主属性完全依赖于主关键字,就是属性依赖于主键。保证不会出现重复的行
- 第三范式