数据挖掘 (四)数据仓库与联机分析处理

一.数据仓库的基本概念:

1.什么是数据仓库:

(1)数据仓库是一种数据库,它与单位的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持

(2)数据仓库的四个主要特征:

面向主题的、集成的、时变的、非易失的

(3)数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需要的信息;

数据仓库也被看做一种体系结构,通过将异构数据源中的数据集成在一起而构建,支持结构化和专门的查询、分析报告和决策制定

(4)建立数据仓库看做构建和使用数据仓库的过程

(5)异构数据库集成的有效方法:

数据仓库使用更新驱动的方法:将来自多个异构源的信息预先集成,并储存在数据仓库中,供直接查询和分析

2.操作数据库与数据仓库的区别:

(1)联机操作数据库系统的主要任务:

执行联机事务和查询处理,这种系统称做联机事务处理(OLTP),覆盖了单位的大部分日常操作

(2)数据仓库系统:在数据分析和决策方面为永华或知识工人提供服务,这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求。这种系统称做联机分析处理(OLAP)

(3)OLTP和OLAP的主要区别:

a.用户和系统的面向性:

OLTP是面向顾客的,用于办事员、客户和信息技术专业人员的事务和查询处理;

OLAP是面向市场的,用于知识工人的数据分析

b.数据内容:

OLTP系统管理当前数据,OLAP系统管理大量历史数据,提供汇总和聚集机制,使数据更容易用于有根据的决策

c.数据库设计:

OLTP采用实体-联系(ER)数据模型和面向应用的数据库设计;

OLAP采用星形或雪花模型和面向主题的数据库设计

d.视图:

OLTP主要关注一个企业或部门内部的当前数据;

OLAP常常跨越数据库模式的多个版本,来自不同单位信息以及多个数据库集成的信息

e.访问模式:

OLTP访问主要由短的原子事务组成,需要并发控制和恢复机制;

OLAP访问大部分是只读操作

f.数据库大小、操作的频繁程度、性能度量等

3.需要分离的数据仓库的原因:

有助于提高两个系统的性能

4.数据仓库的三层体系结构:

(1)底层:仓库数据库服务器

几乎总是一个关系数据库系统

数据提取采用的信用程序:信关

(2)中间层:OLAP服务器

典型的有关系OLAP模型(即扩充的关系DBMS,将多维数据上的操作映射为标准的关系操作)和多维OLAP模型(专门的服务器,直接实现多维数据和操作)

(3)顶层:前端客户层

包括查询和报告工具、分析工具和数据挖掘工具

5.数据仓库模型:

(1)企业仓库:

搜集了关于主题的所有信息。跨越整个企业

(2)数据集市:

包含企业范围数据的一个子集,对于特定的用户群是有用的,其范围限于选定的主题;

数据集市分为独立的和依赖的两类

(3)虚拟仓库:

是操作数据库上视图的集合

6.数据仓库系统使用的工具和实用程序包含的功能:

数据提取、数据清理、数据变换、装入、刷新

7.元数据库:

元数据:关于数据的数据,定义仓库的数据

元数据库包含的内容:

(1)数据仓库结构的描述

(2)操作元数据

(3)用于汇总的算法

(4)由操作环境到数据仓库的映射

(5)关于系统性能的数据

(6)商务元数据

二.数据仓库建模:数据立方体与OLAP

1.数据立方体:一种多维数据模型

(1)数据立方体:允许以多维对数据建模和观察,它由维和事实定义

给定维的集合,我们可以对给定诸维的每个可能的自己产生一个方体,方体的格叫做数据立方体

(2)基本方体:存放最低层汇总的方体

(3)顶点方体:0-D方体存放最高层的汇总

2.多维数据模型的模式:

(1)星形模式:

最常见的模型规范,其数据仓库包括一个大的中心表(事实表)和一组小的附属表(维表)

(2)雪花模式:

星形模式的变种,某些维表被规范化,因而数据进一步分解到附加的表中

(3)事实星座(星系模式):

复杂的应用可能需要多个事实表共享维表,这种模式看做星形模式的汇总

(4)对于数据仓库:通常使用事实星座模式,因为它能对多个相关的主题建模;

对于数据集市:流行采用星形或雪花模式,适合对单个主题建模

3.概念分层的作用:

概念分层:定义一个映射序列,将低层概念集映射到较高层、更一般的概念

模式分层:形成数据库模式中属性的全序或偏序的概念分层

集合分组分层:通过将给定维或属性的值离散化或分组来定义概念分层

4.度量的分类和计算:

数据立方体度量: 一个数值函数,该函数可以对数据立方体空间的每个点求值,通过对给定的各维-值对聚集数据,计算该带你的度量值

度量根据所用的聚集函数分类:

(1)分布的:一个聚集函数如果能用分布方式进行计算

(2)代数的:一个聚集函数如果能用一个具有M个参数的代数函数计算。而每个参数都可以用一个分布聚集函数求得

(3)整体的:一个聚集函数如果描述它的子聚集所需的存储没有一个常数界

5.典型的OLAP操作:

(1)上卷:通过沿一个维的概念分层向上攀升或者通过维归约在数据立方体上进行聚集

(2)下钻:上卷的尼操作,由不太详细的数据到更详细的数据,下钻可以通过沿维的概念分层向下或引入附加的维来实现

(3)切片:在给定的立方体的一个维上进行选择,导致一个子立方体

(4)切块:操作通过在两个或多个维上进行选择,定义子立方体

(5)转轴:一种目视操作,它转动数据的视角,提供数据的替代表示

(6)去哦他OLAP操作:钻取操作、钻透操作

(7)统计数据库(SDB):一种用于支持统计应用的数据库系统

6.多维数据库查询:

基于星网模型;

星网模型:由从中心点发出的射线组成,其中每一条代表一个维的概念分层,概念分层的每个抽象级称为一个足迹,代表注入上卷、下钻等OLAP操作可用的粒度

三.数据仓库的设计与使用:

1.数据仓库的设计考虑的四种视图:

自顶向下视图、数据源视图。数据仓库视图

四.数据仓库的实现:

五.数据泛化:面向属性的归纳

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值