📖 本文目录
📖第一章——数据仓库与数据挖掘教程——第二版
📑 1、从数据库到数据仓库的演变主要特征
书 P 1 - 1.1.1
- 数据太多、信息贫乏(Data Rich 、 Information Poor)。 随着数据库技术的发展,企业单位 建立了 大量的数据库,数据库越来越多,但是辅助决策的信息却很贫乏,如何将数据转化为辅助决策信息成为了研究热点。
- 异构环境数据的转换和共享。 随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换与共享也成为了研究热点。
- 利用数据支持事务处理转换为利用数据支持决策。 数据库用于事务处理,若要达到辅助决策的目的,则需要更多的数据。
📑 2、 OLAP 与 OLTP 是什么?二者对比
书 P 3 - 1.1.2
OLTP(联机事务处理 Online Transaction Processing):是在网络环境下面向交易的事务处理,利用计算机的网络技术,以快速的事务响应和频繁的数据修改为特征,使用户利用数据库能够快速的处理具体业务。
OLAP(联机分析处理 Online Analytical Processing):能够迅速、一致、交互地从多个角度,多个维度观察信息,以达到深入理解数据的目的。
二者对比
OLTP | OLAP |
---|---|
数据库数据 | 数据仓库数据 |
细节性数据 | 综合数据 |
当前数据 | 历史数据 |
经常更新 | 不更新、但周期性刷新 |
一次处理的数据量小 | 一次处理的数据量大 |
其对响应时间要求高 | 响应时间合理 |
用户数量大 | 用户数量相对较小 |
面向操作人员,支持日常操作 | 面向决策人员,支持决策需要 |
面向应用,事务驱动 | 面相分析,分析驱动 |
📑 3、数据字典通常包括哪五个部分?
书P 4-1.1.3
数据字典通常包括数据项、数据结构、数据流、数据存储和存储过程五个部分
其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。
📑 4、数据仓库的元数据 ⭐
元数据的定义? 书 P5 - 2
元数据(metadata):描述数据的数据称之为元数据。
元数据在数据仓库中的概念作用
元数据在数据仓库中是描述数据仓库中数据及其环境的数据。
元数据不仅是数据仓库的数据字典,而且还是数据仓库本身功能的说明数据
数据仓库中的元数据包括哪四类元数据
- 数据仓库的数据字典
- 关于数据源的元数据
- 关于抽取和转换的元数据
- 关于最终用户使用数据仓库的元数据
📑 5、数据仓库的定义与特点
书 P 6-1.1.4
数据仓库(Data Warehouse): 数据仓库是面向主题的、集成的稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
数据仓库的六个特点
-
数据仓库是面向主题的(主题是数据归类的标准)
-
数据仓库是集成的(ETL)
-
数据仓库是稳定的(极少更新或不更新、周期性刷新)
-
数据仓库是随时间变化的(记录数据 含历史数据)
-
数据仓库中的数据量很大
-
数据仓库的软硬件要求较高
📑 6、数据挖掘
书 P 9 -2
数据挖掘是从数据库中的所有数据记录总结出知识。
OLAP 是在带层次的维度和跨维度进行多位数据分析的。数据挖掘是以变量和记录为基础进行分析的。
数据挖掘的任务
数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。这些是带有探索性的建模功能。
OLAP 与 数据挖掘的区别
OLAP 用于来确认已存在数据的某些关系是否成立,数据挖掘(Data Mining)倾向于能挖掘出超越归纳范围的关系。
📑 7、 数据仓库与数据挖掘的区别与关系
书 P 11 - 1.3.1
数据仓库是一种存储技术,其中存储了大量的数据。
数据挖掘是研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识,反映了数据仓库中数据的规律性。
二者之间的关系
数据仓库与数据挖掘二者有着完全不同的辅助决策方式。
数据仓库 中 存储着 —— 大量辅助决策的数据,可以为不同的用户随时提供各种辅助决策的 随机查询 、综合信息 、或者趋势分析信息。
数据挖掘 是 利用一系列算法 将 数据中隐含的信息和知识 挖掘出来。
📑 8、数据仓库中存储数据的特点
书 P 12 - 3
- 数据存储方式的不同(面向决策主题 多库集成 的 按决策分析而存放的)
- 数据存储的数量的不同(大量历史数据的存储用于预测,近期数据以及针对不同级别管理者的各种决策分析数据之和)
- 数据存储的结构不同(因数据是面向主题,且数据量过于庞大所以采用多位超立方体结构形式)
📑 9、 基于数据仓库的决策支持系统结构
书 P 14 - 图上 4 段
- 数据仓库是为了辅助决策而建立的,仅仅依赖数据仓库达到辅助决策的能力是有限的。
- 数据仓库中有大量综合数据,为决策者提供了综合信息,反映宏观状况。
- 数据仓库中有大量历史数据,这些数据通过模型计算可以得到预测信息。
📚 小结:综合信息与预测信息 是数据仓库所获得的辅助决策信息。
- 数据仓库中增加了 联机分析处理(OLAP)和 数据挖掘(DM)等分析工具,可以较大地提高辅助决策能力。
- 联机分析处理(OLAP):对数据仓库中的数据进行多维数据分析,对多维数据的切片、切块、旋转、钻取等,只有通过分析更详细的数据,才能得到更深层中的信息和知识。
- 数据挖掘(Data Mining):对数据仓库中的数据通过一系列算法获取隐含的信息与知识作为决策信息支持决策。
📑 10、商业智能的概念
书 P 14-1.3.3
商业智能(Business Intelligence):是以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。