本期是一期读书笔记
分享,我选择的经典书籍是《阿里巴巴大数据学习之路》
,主要精读其中的数据模型篇。
这本书的经典之处我不再赘述。我主要对篇章中的核心知识脉络
进行整理,并结合数仓面试考点
,希望帮大家在阅读本书时提供重难点梳理和学习思路。
一 数仓体系理论与设计
我将第一部分内容整体概括为数仓体系理论
与设计
。包含数仓体系标准
(OneData体系理论)、数仓建设目标与原则
、数仓架构开发
(架构设计和建设流程)。
基于阿里OneData体系理论
,遵循满足既定业务场景下的数仓设计原则与目标
,设计数仓体系架构
,采用用上而下和由下而上结合的数仓建设流程
,对外输出高效、稳定的数仓服务与产品。
1.1 OneData体系标准
OneData体系是阿里构建全集团统一、规范、共享的数据体系的指导理论,通俗理解就是解决数据的烟囱式存储、重复建设、规范不一致
等问题。
数据系统建设过程会遇到数据爆炸式增长现状,前期建设不规范、烟囱独立开发、指标口径模糊,会慢慢导致数据不好用、无法用。阿里数仓建设过程
采用了OneData理论,提升数仓一致性、规范性与服务能力。
-
统一的指标定义体系
。通过约束指标口径、命名规范与层级设计,快速明确北极星指标和构建完整指标体系。 -
统一的模型设计方法
。建立数据公共层,以维度建模理论为基础,