数据仓库的详解以及四大特点
1. 数据仓库:
-
-
- 数据仓库
-
-
-
- ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
-
-
-
- ——集成的
-
-
-
- ——时变的
-
-
-
- ——非易失的
- ——非易失的
-
1.面向主题的 subject-oriented
- 概念
主题(Subject):特定的数据分析领域与目标
面向主题:为特定的数据分析领域提供数据支持。 - 与传统的差别:
传统数据库中的数据是原始、基础的数据。
特定分析领域数据是需要对他们做必要的抽取、加工总结而形成的。 - 步骤
抽取主题。确定每个主题所包含的数据内容
2.集成的 integerted
- 概念
分析需求服务需要不同的多个数据库,那么要从多个数据源中获取数据就包括多种类型数据库、文件系统以及Internet网上数据等。通过数据集成而形成数据仓库的数据。 - 集成的主要方法
-
- 统一:消除不一致的现象——数据清洗技术
-
- 综合:对原有数据进综合(汇总和聚集)和计算
-
- 清洗:
- 清洗:
- ETL
-
- E —— extract
-
- T ——transformation
-
- L —— load
-
- 数据的抽取转换加载
- 数据的抽取转换加载
- 补充:
- 数据更新(同步)
-
- 全量更新和增量更新两种
-
-
- 全量:数据仓库在构建好时候,一次性按照主题全部数据都更新到数据仓库中(将相关数据批量更新到数据仓库),后面运维中只更新变化的数据。
-
-
-
- 增量:只更新底层变化的数据到数据仓库。
-
-
-
-
- CDC——变化数据捕获:changed data capture
-
-
- 更新的方法
-
- 快照比对
-
- 日志(log)replay——insert delete updata 操作
-
-
- 数据库要不断备份
-
-
- 时间戳:给表定义时间戳(比较常用)
-
- 应用系统
3.时变的(Time variant)
- 分析的是:
-
- 历史性的数据
-
- 时间属性(同比、环比)
4.非易失的(None-volatile)
- 流每秒的数据传输
- 传统数据库中以写为主
- 数据仓库以查为主,只做数据分析
2.数据仓库和数据库对比
数据仓库
- OLAP:分析型DB
- 面向主题
- 反范式设计
- 相对静态的
- 查询为主
- 一般不需要事务处理
- 一般数据规模较大,套用资源较大
- 存储的是历史数据
- 数据仓库的数据是一些汇总的数据
- 面向人群不同——面向的是管理分析人员
数据库
- OLTP:事物型DB
- 面向应用
- 范式设计
- 变化的
- 增删改为主
- 事务处理
- 一般数据规模较小,套用资源较小
- 存储的是当前数据
- 数据库的数据是一些细节的数据
- 面向人群不同——面向的是业务人员
图示
3.数据仓库的系统结构
- ODS —— 操作性数据存储 operation Data store
-
- 特点:
-
-
- 面向主题的
-
-
-
- 集成的
-
-
-
- 存储当前的数据
-
-
-
- 周期性变化的
-
-
-
- 易失的
-
- DM —— 数据集市管理 Data Mart
-
- 面向一个或几个部门的数据仓库
- 面向一个或几个部门的数据仓库
-
- 数据集市分类:独立数据集市和从属数据集市
- (E)DW —— 面向整个企业的数据仓库
- 元数据 Meta Data
-
- 关于数据的数据 data about data
-
- 第一个数据:☝🏻 原始数据
-
- 第二个数据:描述性的数据
-
-
- 技术元数据
-
-
-
- 业务元数据
-
4.数据库的体系化环境
5.数据仓库的数据模型
- 数据仓库的数据模型
-
-
- 是看用户的需求来决定
-
-
- 概念模型————信息包图:系统边界、主题、维度、维度级别、度量与指标
-
- 逻辑模型————星型模型——(派生出:雪花模型、星座模型)
-
- 物理模型————====
- 数据库的数据模型
-
- 概念模型————ER模型
-
- 逻辑模型————层次模型、网状模型→→关系模型
-
- 物理模型————物理文件
1.概念模型(例子):
2.逻辑模型
- 每一个维度(列)都用一个关系表来表示
- 维度表
-
- dim_date
-
-
- id_date
-
-
-
- year
-
-
-
- quarter
-
-
-
- month
-
-
- dim_geo
-
-
- id_geo
-
-
-
- country
-
-
-
- region
-
-
-
- city
-
-
-
- district
-
-
-
- street
-
-
- dim_prod
-
-
- id_prod
-
-
-
- cat1
-
-
-
- cat2
-
-
-
- prod
-
-
- dim_age
-
-
- id_age
-
-
-
- age_group
-
- 事实表
-
- fact_sales
-
-
- id_date
-
-
-
- id_age
-
-
-
- id_prod
-
-
-
- id_age
-
-
-
- id_sex
-
-
-
- pred_sale
-
-
-
- actual_sale
-
-
-
- diff_sale
-
- 叫做星型模型(Star Schema)
- 雪花模型
会在已有的维度表上,派生出新的维度表。 - 星座模型例子
- 星座模型具有两个事实表(sales_face、shipper_fact销售和物流事实表)
- 五个维度表
- 维度表共享给了多个事实表
6. 数据仓库中的数据组织
- 多级数据
- 粒度
数据综合程度高低的度量。 - 粗粒度
综合程度高,占用空间小,回答查询种类越少 - 细粒度
综合程度低,占用空间大,回答查询种类越多
- 例子:
7. 数据仓库的数据追加
- 数据追加
- 变化数据的捕获
8. 分割
- 例子: