数据库
描述:
按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
三范式
1原子性:字段不可再分
2唯一性:仅说明一件事情,有主键,非主键字段依赖主键
3非主键字段不能互相依赖和传递依赖
E R实体关系
Entity-Relationship
数据库设计的理论基础,将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述
数据仓库(Data Warehouse)
出现原因
OLTP数据库,面向事物。存储信息较为分散,难以支持企业决策,难以从多个角度去分析
需要对企业中各类数据进行汇集,清洗,管理,找出战略决策信息,这就需要建立数据仓库。
描述:
数据仓库是面向主题(一个主题与多个系统相关)的、集成(ELT)的(非简单的数据堆积)、相对稳定的、反应历史变化的数据集合,
数仓中的数据是有组织有结构的存储数据集合,用于对管理决策过程的支持。
发展:
1998年,Bill Inmon提出了新的BI架构CIF(Corporation information factory),把Kimball的数据集市也包容进来。
CIF的核心是将数仓架构划分为不同的层次以满足不同场景的需求,比如常见的ODS、DW、DM等,每层根据实际场景采用不同的建设方案
维度建模
源于数据集市
实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。
维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
组成:
事实表
数据仓库中,事实表的前缀为“fact”7-
维度表
维度表包含了维度的每个成员的特定名称。维度成员的名称称为“属性”
数据仓库中,维度表的前缀为"dim"
在数据仓库中事实表就是我们需要关注的内容,维度表就是我们从哪些角度观察这些内容。
星型模型:
所有的维度表都由连接键连接到事实表,
多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余
雪花模型
有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表
对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,
这些被分解的表都连接到主维度表而不是事实表
通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,雪花型结构去除了数据冗余
数仓分层
ODS 操作数据
DW 数据仓库
DWD 数据明细
DWM 数据中间
DWS 数据服务
DM 数据集市
数据库与数仓
最新推荐文章于 2023-12-23 23:17:38 发布