- 数据仓库的特征:
- 面向主题的:数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
- 集成的:将多个异构数据源,如关系数据库、一般文件、联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。
- 时变的:数据存储从历史角度提供信息(如04-08年的数据)。数据仓库中的关键结构都隐式或显式地包含时间元素。
- 非易失的:数据仓库总是物理的分离存放数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制,通常只需同数据的初始化装入和数据访问两种功能。
- 异构数据库的集成:查询驱动(直接在原始数据库操作)、更新驱动(将异构源的信息预先集成并存储在数据仓库中)
- OLTP与OLAP区别:
- 用户和系统的面向性:OLTP面向顾客,OLAP面向市场。
- 数据内容:OLTP管理当前数据,OLAP管理历史数据,提供汇总和聚集机制。
- 数据库设计:通常OLTP采用ER数据模型和面向应用的数据库设计,OLAP通常采用星型或雪花模型和面向主题的数据库设计。
- 视图:OLTP主要关注一个部门当前数据,不涉及历史数据和其他单位数据;OLAP处理不同单位数据以及由多个数据库集成的信息。
- 访问模式:OLTP的访问主要由短的原子事务组成,需要并发控制和恢复机制;OLAP大部分是只读操作。
- 数据仓库三层体系结构:底层是仓库数据库服务器;中间层是OLAP服务器;顶层是前端客户层。
- 数据仓库模型:企业仓库、数据集市、虚拟仓库。
- 数据提取、变换和装入:数据仓库使用后端工具和实用程序来加载和刷新它的数据,这些工具包含以下功能。
- 数据提取:由多个异构外部数据源收集数据。
- 数据清理:检测数据中的错误,可能时订正它们。
- 数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
- 装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和分区。
- 刷新:传播由数据源到数据仓库的更新。
- 元数据库:元数据是关于数据仓库的数据。在数据仓库中,元数据是定义仓库对象的数据。
- 元数据库应当包括以下内容:
- 数据仓库结构的描
【数据挖掘概念与技术】学习笔记4-数据仓库与联机分析处理
最新推荐文章于 2024-09-20 00:09:16 发布
本文介绍了数据仓库的特征,包括面向主题、集成、时变和非易失性,并探讨了数据仓库与OLTP的区别。重点讲解了数据仓库的三层体系结构、数据模型和ETL过程,以及元数据的重要性。此外,还阐述了数据立方体、OLAP操作和数据仓库设计方法,强调了在海量数据中实现高效查询处理的挑战和解决方案。
摘要由CSDN通过智能技术生成