声明:以下内容是学习 《The Architecture for the Next Generation of Data Warehousing》 的笔记。
1.1. 4GL的局限性
Ø 数据准确性,如果数据是不准确的,则没有比这更糟糕的事情了,因为不准备的数据会有很大的误导性;
Ø 数据完整性,不完整的数据的用处并不是很大;
Ø 数据及时性,不及时的数据不太符合人们的需要;
Ø 数据多版本性,当同一个数据出现多个版本时,依赖于其错误的值会导致糟糕的决定;
Ø 没有文档的数据的价值是值得怀疑
终端用户、IT专业人员和管理人员的沮丧导致了另一种不同的信息系统架构的发展,这就是以数据仓库为中心的构架;
1.2. 数据仓库定义
Ø 面向对象
Ø 整合的
Ø 永久的
Ø 随时间变化的
Ø 一个支持管理决策的数据集合
1.3. 数据仓库的商业影响
航空业的常旅客计划;
信用卡欺骗分析:当一个客户试图进行一个超过其记录范围的购买时,信用卡公司就会检查是否将要发生信用卡的欺诈性使用。
……
1.4. 数据仓库环境的各种组件
1.4.1. ETL
ETL技术使得数据可以从以前系统环境中获得并被转换成企业数据。ETL 的组件执行功能:
Ø 数据的逻辑转换
Ø 当需要时,生成默认值
Ø 对数据键添加时间值
Ø 记录的合并
Ø 重构数据键
1.4.2. ODS
操作数据存储,在一定的程度上,ODS 使传统的数据仓库避开了应用数据以及在实时模式的升级过程中事务完整性和数据完整处理的开销。
1.4.3. 数据集市
数据集市是终端用户可以直接访问和控制所分析数据的地方。数据集市是根据一组部门用户对数据应用以何种方式被看到的一般期望形成的。通常也包含大量的汇总数据以及聚合数据。
1.4.4. 探索仓库
担当着重要的统计分析的处理要求,数据仓库避开了由于使用探索仓库做非常繁重的统计而引起的性能缺失。