数据立方体计算与数据泛化

总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分。这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向。

 

  1. 如何根据数据立方体的情况选取合适的计算方法
  2. 完全立方体计算的多路数组聚集方法是怎么进行操作的
  3. BUC是怎么计算冰山立方体的
  4. 动态星形树结构是如何用来计算冰山立方体的
  5. 快速预计算高维OLAP壳片段的处理
  6. 数据立方体的发现驱动探查是什么?
  7. 面向属性的归纳

 

1.如何根据数据立方体的情况选取合适的计算方法

答:基本方体的单元是基本单元。非基本方体的单元是聚集单元。简单的来说,基本方体就是数据立方体的维度都是最开始定义的基本维度,聚集单元就是通过基本维度汇聚成的组合维度。

预计算整体数据立方体需要海量的空间,因为n维数据立方体包含2的n次方个方体,再考虑概念分层,实在是不可承受。实际应用中,我们会发现并不是所有的子方体都是我们需要的,有的基本维度组合是没有实际意义的,这导致我们想要预计算的数据立方体实际需要非常少的计算,是一种非常稀疏的数据立方体计算。在很多情况下,相当多的数据立方体可能被大量低度量值的单元占据,例如空值或者默认值等,实际有意义的数据仅占所有基本单元中非常少的一部分,这个时候产生的数据立方体称为冰山立方体,表示实际的有效数据立方体占全维度的数据立方体中非常少的一部分。闭立方体的单元都是基本单元,只占全部基本单元的一部分。外壳则是仅选取数据立方体少数的几个维度建立。总之,这些内容都是为了建立合适的计算方法做的前期定义。

数据立方体有效计算的一般优化技术有:1、排序、散列、分组,对维属性使用这些操作,重新定序和聚类;2、同时聚集和缓存中间结果,缓存中间结果可以降低计算量;3、当存在多个子女立方体时,由最小的子女聚集,这可以通过复用最小子女聚集的计算结果降低计算量;4、使用Apriori剪枝方法有效计算冰山立方体。Apriori性质:如果给定单元不满足最小支持度,那么该单元的后代也不满足最小支持度。运用这种性质可以有效的化简条件,降低计算量。

 

2.完全立方体计算的多路数组聚集方法是怎么进行操作的

答:多路数组聚集方法使用多维数组作为基本数据结构,计算完全数据立方体。它是一种使用数组直接寻址的典型MOLAP方法,其中维值通过位置或对应数组位置的下标访问。这种方法的具体操作如下所示:1、将数组分块,保证每个块的计算可以在可用内存的约束范围内完成,并将计算的值保存在数组中;2、通过访问立方体单元计算聚集。这种方法的可行之处在于可以通过规划的方法做聚集的并行处理同时下层的聚集值只要达成条件可以自发向上聚集,这是规模化处置很有效的方法。

虽然这种方法可以处理完全立方体的计算,但是这种计算量会随着完全立方体的维数做指数级增长,所以这种方法仅适合维数比较小的完全立方体进行计算。多路数组聚集方法是从下向上进行计算的。

 

3.BUC是怎么计算冰山立方体的

答:BUC是一种计算稀疏冰山立方体的算法。BUC从顶点向下到基本立方体构造立方体,其中数据划分的开销允许BUC分担,同时在构造过程中可以使用Apriori性质进行剪枝。剪枝算法的原理非常接近于二叉树的中序遍历算法,稍微变化的是节点变成了包含底层维度的聚集。同时在遍历过程中,小于递归步长的结点将会被舍去。

 

4.动态星形树结构是如何用来计算冰山立方体的

答:动态星形树算法集成了自顶向下和自底向上立方体计算,利用类似多维聚集和类Apriori剪枝结合操作。这种算法先对全局计算次序,使用自底向上模型。这样会产生一个基于自顶向下的子层,利用共享维的概念。共享维的的引入有利于采用共享计算结果。当整个不断产生子层的划分进行到可以利用Apriori剪枝进行处理的时候,继续向下的计算就可以停止。

 

5.快速预计算高维OLAP壳片段的处理

答:实际场景中,我们可能为了快速估算OLAP值,只要这个值在可以接受的范围内就可以。在这种场景下,采用少数几个维的壳进行预计算就非常可取了,实际上我们可能也仅仅只是对少数几个感兴趣或者需要的维进行预计算。

算法的基本思想:给定高维数据集,将维划分成互不相交的维片段,每个片段转换成相应的倒排索引表示,,然后构造外壳片段立体,保持与立方体单元相关联的倒排索引。使用预计算的外壳片段立方体,可以动态组装和计算所需的数据立方体的方体单元,实际可通过倒排索引上的集合交操作有效完成。

6.数据立方体的发现驱动探查是什么?

答:由于数据挖掘可以统计出数据的变化趋势,这样我们主要分析趋势变化中异于正常平稳的部分就可以,这部分可以通过自身的纵向比较或者跟其他同级别聚集的横向比较得出。这种比较方式称为发现驱动的探查,主要是基于技术手段的统计分析得出。在实际数据挖掘的过程中,基于此种方法,通常对变换非常剧烈的点特别标识出来,称为异常点。异常点一般都包含了某些特殊因素存在,是非常有价值的点。

多特征的立方体查询类似于按照多种条件做统计,实际情况是非常类似的。数据立方体在某些约束条件下的分析也是一种极其类似于在一些限定条件下对某些数据使用聚集函数进行统计的情况。

 

7.面向属性的归纳

答:概念描述产生数据的特征化和比较描述。特征化提供给定数据汇集的简洁汇总,概念或类的比较提供两个或多个数据集的比较描述。面向属性龟年是一种概念描述方法,适用于复杂的数据类型并依赖数据驱动的泛化过程。面向属性归纳方法基本上是面向查询的、基于泛化的联机数据分析处理技术。

面向属性归纳的一般思想:先使用数据库查询收集任务相关的数据;然后通过考察任务相关数据集中每个属性的不同值个数进行泛化。这样可以缩减计算规模,加快处理速度。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值