第一章 简介
1.数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)系统
2.信息用作两个目的:操作型记录的保存和分析型决策的制定;操作型系统保存数据,一般一次处理一条事务记录;DW/BI系统使用数据,一次处理多条事务。
3.DW/BI系统的基本业务需求:
①.DW/BI系统要能方便的存取信息:系统的内容必须是易于理解。
②.DW/BI系统必须以一致的形式展现信息:数据必须是可信的,通过数据清洗确保质量。
③.DW/BI系统必须能适应变化:应用维度表和事实表。
④.DW/BI系统必须能够及时展现信息
⑤.DW/BI系统必须成为保护信息财富的安全堡垒。
⑥.DW/BI系统必须成为提高决策制定能力的权威和可信的基础。
⑦.DW/BI系统成功的标志是业务群体接受。
注:后两条更重要
4.维度建模是展现分析数据的首选技术;此观点被接受基于以下两个需要同时满足的需求:
①.以商业用户可理解的方式发布数据。
②.提供高效的查询性能。
5.第三范式:指表中的所有数据元素不但要能惟一地被主关键字所标识,而且它们之间还必须相互独立,不存在其他的函数关系。
6.在关系数据管理系统中实现的维度模型称为星型模式;在多维数据库环境中实现的维度模型通常称为联机分析处理(OnLine Analytical Processing,OLAP)多维数据库。
7.关系型数据库:Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL
非关系型数据库:NoSql、Cloudant、MongoDb、redis、HBase
8.事实表示为某个业务的度量;事实表中每行对应一个度量事件。
9.维度建模的核心原则之一:同一事实表中所有的度量行必须有相同的粒度。
10.事实表的主键常称为组合键,具有组合键的表称为事实表,事实表表示多对多的关系,其他表称为维度表。
11.多数情况下,数据仓库的好坏直接取决于维度属性的设置;DW/BI环境的分析能力直接取决于维度属性的质量和深度。
12.判断某度量是否为事实属性或维度属性:在分析操作型源数据时,有时不清楚一个数值数据元素应该是事实属性还是维度属性,可以分析该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列往往可能是事实;若该列是对具体值的描述,是一个常量、某一约束和行标识的参与者,此时该属性往往是维度属性。
13.雪花模式:在产品维度表中仅存品牌代码,建立品牌分类查询表,使数据规范化。
14.维度表通常不一定满足3NF,它常常是非常规化的,一个维度表中往往存在多对一的关系。
15.星型连接:围绕事实表的是多个维度表,维度表包含时间发生时实际存在的文本环境&