目录
4、数据集市(Data Mart)VS 数据仓库(Data Warehouse)
1、基本概念
数据集市 (Data Mart)是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合,也称为“小数据仓库”或“部门级的数据仓库“。
2、数据集市特点
- 满足特定部门或用户需求
- 针对特定主题
- 统一的高质量数据
- 数据仓库的子集
- 交互式分析、秒级返回
3、数据集市分类
3.1 独立型数据集市(自下而上开发)
1、从数据集市入手,就某一个特定的主题,先做独立数据集市,当数据集市达到一定规模,再从各个数据集市进行数据的整合建立企业级的数据仓库。
2、数据集市包含了能够从数据源获取的全部的明细数据。
3、是为了支撑某个业务流程而建立的维表集合。
4、数据集市是基于数据来源而非部门的视图。优缺点:
优点:搭建快、成本低、风险小。
缺点:可能会导致信息孤岛的存在,不能以全局的视角去分析数据、可能会存在大量冗余数据。
3.2 从属型数据集市(自上而下开发)
1、从属型数据集市采用自上而下的开发方式。首先建立企业级的数据仓库,然后从企业级的数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。
2、数据仓库中保存了企业的颗粒化数据,可作为事实的唯一版本。优缺点:
优点:体系结构上更稳定;可以提高数据分析的质量,保证数据的一致性
缺点:实施周期长、难度大、风险高
4、数据集市(Data Mart)VS 数据仓库(Data Warehouse)
对比项 | 数据仓库 | 数据集市 |
---|---|---|
范围 | 企业级 | 部门级或业务线 |
主题 | 企业主题 | 部门或特殊的分析主题 |
数据源 | 遗留系统、事务系统、外部数据等多个数据源 | 数据仓库或事务系统的少量数据源 |
数据粒度 | 较细的数据粒度 | 较粗的数据粒度 |
数据结构 | 规范化结构、星型/雪花模型 | 星型模型、雪花模型或两者混合 |
历史数据 | 大量历史数据 | 适度的历史数据 |