【数据挖掘概念与技术】学习笔记4-数据仓库与联机分析处理

本文介绍了数据仓库的特征,包括面向主题、集成、时变和非易失性,并探讨了数据仓库与OLTP的区别。重点讲解了数据仓库的三层体系结构、数据模型和ETL过程,以及元数据的重要性。此外,还阐述了数据立方体、OLAP操作和数据仓库设计方法,强调了在海量数据中实现高效查询处理的挑战和解决方案。
摘要由CSDN通过智能技术生成
  1. 数据仓库的特征:
    • 面向主题的:数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
    • 集成的:将多个异构数据源,如关系数据库、一般文件、联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。
    • 时变的:数据存储从历史角度提供信息(如04-08年的数据)。数据仓库中的关键结构都隐式或显式地包含时间元素。
    • 非易失的:数据仓库总是物理的分离存放数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制,通常只需同数据的初始化装入和数据访问两种功能。
  2. 异构数据库的集成:查询驱动(直接在原始数据库操作)、更新驱动(将异构源的信息预先集成并存储在数据仓库中)
  3. OLTP与OLAP区别:
    • 用户和系统的面向性:OLTP面向顾客,OLAP面向市场。
    • 数据内容:OLTP管理当前数据,OLAP管理历史数据,提供汇总和聚集机制。
    • 数据库设计:通常OLTP采用ER数据模型和面向应用的数据库设计,OLAP通常采用星型或雪花模型和面向主题的数据库设计。
    • 视图:OLTP主要关注一个部门当前数据,不涉及历史数据和其他单位数据;OLAP处理不同单位数据以及由多个数据库集成的信息。
    • 访问模式:OLTP的访问主要由短的原子事务组成,需要并发控制和恢复机制;OLAP大部分是只读操作。
  4. 数据仓库三层体系结构:底层是仓库数据库服务器;中间层是OLAP服务器;顶层是前端客户层。
  5. 数据仓库模型:企业仓库、数据集市、虚拟仓库。
  6. 数据提取、变换和装入:数据仓库使用后端工具和实用程序来加载和刷新它的数据,这些工具包含以下功能。
    • 数据提取:由多个异构外部数据源收集数据。
    • 数据清理:检测数据中的错误,可能时订正它们。
    • 数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
    • 装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和分区。
    • 刷新:传播由数据源到数据仓库的更新。
  7. 元数据库:元数据是关于数据仓库的数据。在数据仓库中,元数据是定义仓库对象的数据。
  8. 元数据库应当包括以下内容:
    • 数据仓库结构的描
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值