----------------------------------------------------------------------------------------------------------------
一.数仓概述
1.数据仓库(Data Warehouse)定义
Bill Inmon对数仓的定义是:一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
个人理解:面向主题即 企业的运营或需求主题并按主题划分对数据进行分类
集成即 多数据源集成
随时间变化即 源数据可能存在变化的可能性,如目标居住地迁移
非易失即 数仓数据需要可靠的全量存储
2.数仓好处
将多个数据源集成到单一数据存储,因此可以使用单一数据查询引擎展示数据
缓解在事务处理数据库上因执行大查询而产生的资源竞争
维护历史数据
通过对多个源系统的数据整合,使得在整个企业的角度存在统一的中心视图
通过提供一致的编码和描述,减少或修正坏数据问题,提高数据质量
一致性地表示组织信息
提供所有数据的单一通用数据模型,而不用关心数据源
重构数据,使数据对业务更有意义
向复杂分析查询交付优秀的查询性能,同时不影响操作型系统
开发决策型查询更简单
二.数据模型
1.数据模型设计
数据模型是对现实世界数据特征的抽象,数据模型的设计方法就是对数据进行归纳和概括的方法。
2.方法选择
业界主要的模型设计方法论有两种:
a.数据仓库之父 Bill Inmon 提出的范式建模,又叫 ER 建模