数据挖掘:数据立方体的多路数组聚集

数据立方体的多路数组聚集

最近上课老师讲到数据立方体,讲到了数据立方体的预处理。为什么要预处理?因为如果不预处理的话,每次需要相关信息都需要从头计算,需要消耗大量的时间,因此为了便于选取数据,需要对数据立方体进行预处理。预处理一般分为两种:

  1. 部分处理(冰山立方体,外壳立方体等等)
  2. 完全处理,下文就要讨论一种完全处理的方式:多路数组聚集。

用最简单暴力的方法来进行完全处理的话,在应对很大的数据集时,将会做很多重复冗余的工作,因此就有了多路数组聚集的方式,它的基本思想是通过一次遍历,来计算出需要的所有同一维立方体。比如基础立方体是一个3-D立方体,那么用多路数组聚集的方法计算所有2-D立方体,只需要进行一次对基础立方体的遍历,在遍历的过程中同时对所有的2-D立方体进行处理。

虽然只需要一次遍历,但是考虑到节省内存开支,对于遍历的顺序也需要仔细考虑。一般来说,沿着最短的维开始遍历,然后是次短的,以此类推。为什么是这样,举下面一个例子:

  • 首先来假设有一个3-D立方体,分为A, B, C三个维度,三个维度的大小分别是:40, 400, 4000;
  • 现在将这个立方体沿每个维分为四个部分,那么在A, B, C三个维上,每一个基本段的大小就是10,100,1000。整个立方体也被分为了64个部分,如下图:
  • 按序号升序开始遍历。当遍历到4时,2-D立方体(实际是表)中的 b 0 c 0 b_0c_0 b0c0已经计算完毕,同理,遍历到5时, b 1 c 0 b_1c_0
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值