1.数据仓库(DW)的官方定义是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
简单而言数据仓库是从各类数据源中抓取数据,经过清洗、集成、选择、转化等处理后,将其存储在数据仓库的内部数据库中。
2.数据仓库系统包括:数据仓库技术、OLAP(联机分析处理技术)、数据挖掘技术。数据仓库弥补了原有数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一个新的环境——体系化环境。
3.数据库技术的运用正在向广度(数据源的广泛化)和深度(基于已有信息,面向数据分析的应用)两个方向发展。
4.对数据仓库的研究包括:新的索引技术、实物化视图技术、多维存储技术、查询优化与并行处理技术、分组聚集技术。
5.数据仓库的作用:提供了标准的报表和视图功能;多维分析;作为数据挖掘的基础。
6.数据仓库与数据库的比较:
7.数据仓库数据的组织架构:
数据仓库中的数据分为:早期细节级、当前细节级、轻度综合级、高度综合级。
数据源经综合后进入当前细节级,再进过进一步综合到达轻度综合级乃至高度综合级。
老化的数据放在早期细节级。
不同的综合级别称为“粒度”,粒度越大,细节程度越低,综合程度越高。
数据仓库中还有一部分主要的数据——元数据,关于“数据的数据”,分为技术元数据、业务元数据。
(1).虚拟的数据仓库体系结构:
利用描述了业务系统数据库中数据位置和抽取数据算法的元数据直接从业务系统数据库中抽取数据进行概括、聚合后,将其最终结果提供给用户。
(2).单独的数据仓库体系结构:
数据源被按照同一个标准抽取到独立的数据仓库中,用户根据主题将数据发布到数据集市中。
(3).单独的数据集市体系结构:
数据集市或称面向主体的数据仓库,是按照主题进行构思形成的数据仓库,系统的数据不存储在同一个数据仓库,每个主题有自己的物理存储区。
(4).分布式数据仓库体系结构:
9.数据仓库中的相关概念:
(1)数据源:包括业务数据、历史数据、办公数据、web数据、外部数据、数据源元数据。
(2)数据仓库的关键是数据的存储和管理。数据仓库中数据存储层的存储的是业务数据、元数据、数据集市。
(3)抽取存储区:从外部数据源抽取数据,导入到数据仓库之前,应该放入缓冲区中,以便进行数据的清洗和转换。
(4)OLAP服务器:将数据仓库中的数据组织成多维数据集即数据立方体,然后读数据进行分析。
ROLAP:基本数据和聚合数据都放在RDBMS中。
MOLAP:基本数据和聚合数据都放在多维数据库中。
HOLAP:基本数据放在RDBMS,聚合数据放在多维数据库中。
(5)前端工具包括:报表工具、查询工具、数据挖掘工具、数据分析工具(前三个是针对DW,最后一个针对OLAP服务器)。
(6)前端展示工具将OLAP服务器处理的结果展示给用户。前端展示工具包含:查询型工具、验证型工具、发掘型工具。
简单而言数据仓库是从各类数据源中抓取数据,经过清洗、集成、选择、转化等处理后,将其存储在数据仓库的内部数据库中。
2.数据仓库系统包括:数据仓库技术、OLAP(联机分析处理技术)、数据挖掘技术。数据仓库弥补了原有数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一个新的环境——体系化环境。
3.数据库技术的运用正在向广度(数据源的广泛化)和深度(基于已有信息,面向数据分析的应用)两个方向发展。
4.对数据仓库的研究包括:新的索引技术、实物化视图技术、多维存储技术、查询优化与并行处理技术、分组聚集技术。
5.数据仓库的作用:提供了标准的报表和视图功能;多维分析;作为数据挖掘的基础。
6.数据仓库与数据库的比较:
7.数据仓库数据的组织架构:
数据仓库中的数据分为:早期细节级、当前细节级、轻度综合级、高度综合级。
数据源经综合后进入当前细节级,再进过进一步综合到达轻度综合级乃至高度综合级。
老化的数据放在早期细节级。
不同的综合级别称为“粒度”,粒度越大,细节程度越低,综合程度越高。
数据仓库中还有一部分主要的数据——元数据,关于“数据的数据”,分为技术元数据、业务元数据。
8.数据仓库的体系结构:
(1).虚拟的数据仓库体系结构:
利用描述了业务系统数据库中数据位置和抽取数据算法的元数据直接从业务系统数据库中抽取数据进行概括、聚合后,将其最终结果提供给用户。
(2).单独的数据仓库体系结构:
数据源被按照同一个标准抽取到独立的数据仓库中,用户根据主题将数据发布到数据集市中。
(3).单独的数据集市体系结构:
数据集市或称面向主体的数据仓库,是按照主题进行构思形成的数据仓库,系统的数据不存储在同一个数据仓库,每个主题有自己的物理存储区。
(4).分布式数据仓库体系结构:
9.数据仓库中的相关概念:
(1)数据源:包括业务数据、历史数据、办公数据、web数据、外部数据、数据源元数据。
(2)数据仓库的关键是数据的存储和管理。数据仓库中数据存储层的存储的是业务数据、元数据、数据集市。
(3)抽取存储区:从外部数据源抽取数据,导入到数据仓库之前,应该放入缓冲区中,以便进行数据的清洗和转换。
(4)OLAP服务器:将数据仓库中的数据组织成多维数据集即数据立方体,然后读数据进行分析。
ROLAP:基本数据和聚合数据都放在RDBMS中。
MOLAP:基本数据和聚合数据都放在多维数据库中。
HOLAP:基本数据放在RDBMS,聚合数据放在多维数据库中。
(5)前端工具包括:报表工具、查询工具、数据挖掘工具、数据分析工具(前三个是针对DW,最后一个针对OLAP服务器)。
(6)前端展示工具将OLAP服务器处理的结果展示给用户。前端展示工具包含:查询型工具、验证型工具、发掘型工具。