商务智能-联机多维分析

多维分析模型

建立数据仓库模型主要是为了决策分析的需要。对于决策分析,需要选择若干对决策活动有重要影响的因素。

数据的度量值构成了事实数据的组成部分,从而形成了多维分析模型的两个最基本的数据结构:事实表维度表

多维分析是以数据仓库为基础,多维数据模型是一个逻辑概念。

  • 多维数据模型:主要解决如何对大量数据进行快速查询和多角度展示,以便得出有利于管理决策的信息和知识。
  • 多维数据模型通过引入维、维层、维路径和度量等概念,将信息在概念上视为一个立方体,或者说多维数据集。

多维结构是在线多维分析(OLAP)的核心

多维数据集(CUBE)指的是一个数据集合,通常是从数据仓库的子集构造,并组织和汇总成一个有一组维度和度量值定义的多维结构。

多维数据集或者是多维数据库将数据存放在一个多维数组中,而不是像关系数据库那样以记录的形式进行存放。

以上这样一个数据单元表示的是2015年四川地区书籍的销售额为8000万元。

多维数据模型可以构建在关系数据库系统架构之上,形成逻辑上的多维数据结构,这时候的关系数据库可以是一种非规范化的关系模型,其由一组限制、约束、描述型的属性字段,称为维度属性所构成的表,又称为维度表,和一组度量值属性所构成的表,称为事实表。

维度模型由维度表事实表共同组成,在在物理结构上表和表之间的连接关系通过关键字和外关键字来进行定义。

多维数据模型能够以良好的可理解性和方便的操作性动态的产生报表进行组织查询,在进行维度模型设计的时候不需要或者很少考虑修改数据的性能。

统一维度模型的数据组织方式:统一维度模型是比立方体更为宽广的一个概念,在统一模型中可以更多的关注维建模而不是聚集,它结合了关系和多维两种技术。

统一维度模型可以说是立方体和维的结合体,可以在没有实际构建立方体的情况下创建统一的维度模型。

大多数情况下统一的维度模型只包含单个立方体,也就是说一个立方体包含一个或多个度量组,但是统一维度模型也可能包含多个立方体。

维度和度量

在多维数据集(CUBE)中数据可以简单地分为两类:

  • 一类是描述分析角度、过滤分析条件的数据:维度数据
  • 另一类则是用来定义,被分析的数值型事实信息:度量数据

度量值是一组数值,是客户发生事件或动作的事实记录,是决策者所关心的具有实际意义的数值:

度量值所在的表称为事实表,每一个事实表通常都包含了分析所关心的一系列的度量值。常规多维数据集的结构中只能有一个事实表。

事实表中的数据行的数量非常大,而表中列的个数较少,表内的数据经常会发生变化(数据追加),事实表中的数据主要用来进行各类度量值的聚集计算,聚集计算包括统计汇总,但不完全等同于汇总。事实表中的数据用来提供有关业务运作的历史信息。度量值是所分析的多维数据集的核心,它是最终用户浏览多维数据集时,重点查看的数值数据。

维度(Dimension) 简称维,是分析者观察数据的角度。

维度表包含描述事实数据表中的事实记录的特征信息。

维度成员(Dimens ionMember)是维度属性的的一个取值,简称维成员。

维度的层次结构简称为维层层级结构是维度中属性成员的集合以及这些成员之间的相对位置。

时间维度下的年份、季度、月份、日期就分别表示了时间维度下的不同层次。同一个维度下往往具有多个维度级别。不同的维度级别在概念层次下存在包含关系,不同细节程度的数据,就可以通过不同概念层下的维度属性,进行控制展现。

每一个维度的数据都是以维度表的方式组织的,维度表简称维表。每一张维表对应现实世界中的一个对象或者概念。

慢变维(SCD):相对于事实表,维表的内容稳定。随着时间的变化,新的事务或交易不断产生,但新产品的加入却相对较少,新商场的开张更少,产品维和商场维中的数据相对是固定的,而事实表中的数据随着新的事务的发生而不断更新到事实表中。

  • 处理缓慢变维的方法:第一种处理方式,当某个维度成员的数据发生变化时,最新的列值将覆盖以前的维度记录,从而清除了该维度成员的历史记录。
  • 第二种处理方式是,当某个维度成员的数据发生变化时,最新的列值将存储为维度中的新记录,从而提供了一个维度成员的多个实例,这样便保留了历史记录。
  • 第三种方式是,当某个维度成员的列数据发生变化,而数据仓库要保留该变化列的最后一个版本时,原始数据将移到该维度记录的最后一个版本列中,并且所有新维度信息将覆盖现有列。
  • 第三种方式可能会涉及到动态改变数据仓库模型,带来比较大的开销,实际中并不经常使用。一般情况下采用第一和第二相结合的方式,对于维度中描述性的属性直接覆盖,对于会出现在层次当中,可能会参与聚合计算的属性,则采用第二种方式。

联机多维分析

联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。

决策人在进行决策过程中是先假设一定的条件,然后通过OLAP验证或推翻这种假设,然后在此基础上再次进行假设,验证或推翻假设这样的循环在决策过程中不断重复。

在线联机分析就是使用多维分析方法,对于多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便于剖析数据。决策者能从多个角度多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵。

  • 上卷(Roll-up)是在多维数据集中执行聚集操作,通过在维级别中 上升或通过消除某个或某些维来观察更综合的数据。
    • 上卷操作是基于维层的存在,在维层上维度值的变化从而导致了度量数据计算的结果变化。
    • 上卷操作还有一种可能就是通过消除一个或多个维度来观察更概括的数据。

  • 下钻(Drill-down)可以看作是上卷的逆操作,其是通过在维度级别中下降或通过引入某个或某些维度来更细致的观察数据。

  • 切片(Slice)是在给定的数据立方体上的一个维度上进行的选择操作。切片的结果得到一个二维的平面数据。

  • 切块是在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个自立方体。 

  • 旋转(Pivot)就是改变维的方向。

关系数据库和多维数据库中数据存放的差异:

  • 细节数据存放

  • 汇总数据存放 
    • 在多维的数据存储结构下,需要存储汇总的数据的时候会更方便,进行查询的时候也会更快捷。

多维数据的存储方式

  • ROLAP:关系型OLAP
    • 在这种数据的存储方式下,对于基础数据和汇总数据都存放在关系数据库中,存储维度的数据以数据表的形式存储在ROLAP的服务器当中。ROLAP将支持多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据库当中,并用独立的关系表来存放聚集数据。
    • 特点:不存储数据源数据的副本,占用的磁盘空间相对较少,每次分析的数据都来自于原始的数据库当中,这些数据库是业务数据库,因此读取的数据总是最新的数据,就不存在数据更新周期的滞后问题。
    • 缺点:存取的速度低,大量的数据处理时间造成响应速度比较慢。

  • MOLAP:多维OLAP
    • MOLAP使用多维数据数组来存储数据,是一种高性能的多维数据存储格式。多维数据存储在多维数据集当中,形成立体结构。MOLAP存储模式将细节数据和汇总数据都存储在立方体结构下,在物理上把多维数据视图组成一个多维数组。维的属性值被映射成多维数组下的下标或下标范围,而汇总数据作为多维数组的值存储在数据的单元当中,并且同时存储在分析服务器上。
    • 不同于ROLAP以关系数据库的形式来存放数据,只有在处理维度的时候才会创建多维数据。
    • 优点:存取速度快,查询性能好。
    • 缺点:由于汇总数据需要周期型的通过对原始细节数据部署时生成,所以在使用数据时可能会有周期性的数据滞后,另外数据存储占用空间大。

  • HOLAP:混合型OLAP
    • HOLAP就是综合ROLAP和MOLAP的优点,将二者相结合的一种数据存储模式,比如原始的细节数据和ROLAP一样存储在关系数据库当中,而汇总的聚合数据存放在多维数据集当中,以多维的形式进行存放,这样既能与关系数据库建立连接,同时又利用了多维数据库的读取查询的性能优势。

 

 

 

【西南财经大学-商务智能】

【链接:https://www.icourse163.org/course/SWUFE-1002080016

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值