1. 数据仓库与数据挖掘
(1) OLAP与OLTP系统的比较:P424
1. 面向的用户和系统:OLTP是面向客户的,由职员、信息技术人员、客户进行事务处理和查询处理;OLAP是面向市场的,由经理、管理人员、分析人员进行数据分析和决策制定。
2. 数据内容:OLTP系统管理当前数据,这些数据很琐碎,难以用于决策;OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息,这些特点使得数据适合于决策分析。
3. 数据库设计:通常OLTP采用E-R图和面向应用的数据库设计,而OLAP采用星型模式或雪花模式和面向主题的数据库设计。
4. 视图:OLTP系统主要关注一个企业或组织内部的当前数据,不涉及历史数据和不同组织的数据;OLAP系统常常跨越一个企业的数据库模式的多个版本,处理来自不能同组织的信息,由多个数据源于集成的信息。
5. 访问模式:OLTP系统的访问主要由短的原子事务组成,这钟系统需要并发控制和恢复机制。OLAP系统的访问大部分是只读操作,其中大部分是复杂查询。
(2) 数据仓库体系结构及三种数据仓库模型定义:P430
1、 底层为数据仓库服务器,中间层为OLAP服务器,顶层为前端工具。
2、 三种数据仓库模型:
(1) 企业仓库:收集跨越整个企业的各个主题的所有信息。它提供全企业范围的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨多个功能的。
(2) 数据集市:包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题。
(3) 虚拟仓库:是操作型数据库上视图的集合。
(3) 数据集市特点/数据仓库开发方法优缺点及增量演进步骤、
ODS与DW最大差别:P433(04下)
[问题1]
(1)与数据仓库相比,数据集市有以下特点:
规模小,灵活,可以按照多种方式来组织数据,如按特定的应用、部门、地域、主题等。
开发工作可由业务部门定义、设计、实施、管理和维护。
能够快速实现,代价较低,投资回收期短,风险小。
工具集的紧密集成。
有利于升级到完整的数据仓库或形成分布式数据仓库。
(2)[自底向上] 这种方法花费低,灵活性高,并能快速回报投资;但是将分散的数据集市集成起来,形成一个一致的企业仓库可能很困难。
[自顶向下] 最大限度减少集成问题,但费用高高,费时长,并且缺乏灵活性
[问题2]
定义一个高层次的企业数据模型,在不同的主题和可能的应用之间,提供企业范围的、一致的、集成的数据视图。
基于上述企业的数据模型,并行地实现各自独立的数据集市和企业数据仓库。
构造分布式数据集市,对不同的数据集市进行集成。
构造一个多层数据仓库。在多层数据仓库中,企业数据仓库是所有数据仓库是数据的全权管理者,而这些数据分布在各个相关的数据集市中。
[问题3]
最大差别是两者存放的数据内容不同,ODS存储了当前的或最近的数据;而DW存储了历史数据;ODS存储了细节数据,而DW存储了细节数据和综合数据;ODS可联机更新数据,而DW中数据一般为不可变的快照。
(4) 联机分析处理的基本功能及定义:P434
1. 上卷:在数据立方体中执行聚集操作,通过在维层次中上升或通过消除某个或某些维来观察更加概括的数据。
2. 下钻:通过在维层次中下降或通过引入某个或某些新的维来观察更加细节的数据。
3. 切片:在给定的数据立方体的一个维上进行选择操作,得到一个子立方体。
4. 切块:在给定的数据立方体的两个或更多个维上进行选择操作,得到一个子立方体。
(5) 数据挖掘定义及方法:P438
1. 关联规则挖掘:是一个从现象到本质的揣测推理过程。
2. 特征描述:是对目标类数据的一般特征或特性进行汇总,并以直观易理解的方式显示给用户。
3. 分类分析:是找出数据集中各组对象的共同特征,并建立分类模型,从而能够将数据集中的其它他对象分到不同的组中。
聚类分析:将数据集分割为若干个有意义的聚簇的过程。