-
第二章 数据仓库原理
-
2.1 数据仓库结构体系
-
2.1.1 数据仓库结构
-
近期基本数据
-
历史基本数据
-
轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
-
高度综合数据层:在轻度综合数据基础上的再一次综合,准决策数据。
-
-
2.1.2 数据集市及其结构
-
1.数据集市的产生
-
DW成本巨大,提供更紧密集成的数据集市应运产生
-
-
2.数据集市 (Data Marts)
-
更小、更集中、具特定应用的DW。
-
独立数据集市(Independent Data Mart)
-
从属数据集市(Dependent Data Mart)
-
-
3.数据集市与数据仓库差别
-
DW
-
主题
-
面向企业范围。
-
-
数据组织
-
第三范式等。
-
-
-
数据集市
-
主题
-
面向部门。
-
-
数据组织
-
星型模型。
-
-
-
部门的主题与企业的主题之间可能存在关联,也可能不存在关联。
-
-
4.数据集市的特性
-
规模小、特定应用、面向部门、快速实现、投资快速回收、可升级到完整DW。
-
-
5.两种数据集市的结构
-
-
2.1.3 数据仓库系统结构
-
由数据仓库(DW)、仓库管理和分析工具三部分组成。
-
1、仓库管理
-
(1)数据建模
-
(2)数据抽取、转换、装载(ETL)
-
70%工作量
-
-
(3)元数据
-
DW字典,指导ETL,指导用户使用。
-
-
(4)系统管理
-
-
2、分析工具
-
(1)查询工具
-
可视化工具
-
-
(2)多维分析工具(OLAP工具)
-
(3)数据挖掘(DM)工具
-
(4)C/S工具
-
-
-
2.1.4 数据仓库运行结构
-
典型的客户/服务器(C/S)
-
OLAP的三层C/S结构:工作效率更高
-
-
-
2.2 数据仓库的数据模型
-
数据仓库存储采用多维数据模型。
-
2.2.1 星型模型
-
由“事实表”(大表)以及多个“维表”(小表)所组成。
-
2.2.2 雪花模型与与星网模型
-
1.雪花模型
-
对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。
-
-
2. 星网模型
-
将多个星型模型连接起来形成网状结构。
-
-
-
-
2.2.3 第三范式
-
传统DB设计理论
-
减少数据冗余
-
-
-
优势
-
星型模型
-
多维数据分析时速度很快
-
但是增加维度将是很困难的事情。
-
-
-
第三范式
-
海量数据(如TB级)
-
大量的动态业务分析
-
-
-
-
2.3 数据抽取、转换和装载
-
数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。
-
2.3.1 数据抽取
-
(1)确认数据源
-
(2)数据抽取技术
-
当前值。(数据变化快,数据是否有效?)
-
周期性的状态。
-
-
-
2.3.2 数据转换
-
1.数据转换的基本功能(针对DB)
-
选择、分离/合并、转化、汇总、清晰
-
-
2.数据转换类型
-
3.数据整合和合并
-
实体识别问题 、多数据源相同属性不同值的问题
-
-
4.如何实施转换
-
自己编写程序实现数据转换、使用转换工具
-
-
-
2.3.3 数据装载
-
(1)数据装载方式
-
基本装载、追加、破坏性合并、建设性合并
-
-
(2)数据装载类型
-
最初装载、增量装载、刷新
-
-
-
2.3.4 ETL工具
-
1 . 数据转换引擎
-
2 . 代码生成器
-
3 . 通过复制捕获数据
-
-
-
2.4 元数据
-
2.4.1 元数据的重要性
-
数据字典
-
-
2.4.2 关于数据源的元数据
-
对不同平台上的数据源的物理结构和含义的描述。(如何转换到DW中?)
-
-
2.4.3 关于数据模型的元数据
-
描述了DW中有什么数据以及数据之间的关系。 (用户的数据字典)
-
-
2.4.4 关于数据仓库映射的元数据
-
是数据源与DW数据间的映射。 (获取数据的第一步)
-
1、抽取工作间的复杂关系。
-
2.源数据与目标数据之间的映射
-
(1)抽取工作(2)抽取工作步骤(3)抽取表映射(4)抽取属性映射(5)记录筛选规则
-
-
-
-
2.4.5 关于数据仓库使用的元数据
-
是DW中信息的使用情况描述。
-
-
-
数据仓库与数据挖掘(第三版)陈文伟思维导图 第二章 数据仓库原理(整理复习)
于 2024-03-20 15:40:22 首次发布