数据挖掘：数据立方体的多路数组聚集

最新推荐文章于 2023-12-30 20:06:03 发布

QyngLanF

最新推荐文章于 2023-12-30 20:06:03 发布

阅读量2.2k

点赞数 5

分类专栏：数据挖掘文章标签：数据立方体多路数组聚集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40927437/article/details/88539319

版权

数据立方体的多路数组聚集

最近上课老师讲到数据立方体，讲到了数据立方体的预处理。为什么要预处理？因为如果不预处理的话，每次需要相关信息都需要从头计算，需要消耗大量的时间，因此为了便于选取数据，需要对数据立方体进行预处理。预处理一般分为两种：

部分处理（冰山立方体，外壳立方体等等）
完全处理，下文就要讨论一种完全处理的方式：多路数组聚集。

用最简单暴力的方法来进行完全处理的话，在应对很大的数据集时，将会做很多重复冗余的工作，因此就有了多路数组聚集的方式，它的基本思想是通过一次遍历，来计算出需要的所有同一维立方体。比如基础立方体是一个3-D立方体，那么用多路数组聚集的方法计算所有2-D立方体，只需要进行一次对基础立方体的遍历，在遍历的过程中同时对所有的2-D立方体进行处理。

虽然只需要一次遍历，但是考虑到节省内存开支，对于遍历的顺序也需要仔细考虑。一般来说，沿着最短的维开始遍历，然后是次短的，以此类推。为什么是这样，举下面一个例子：

首先来假设有一个3-D立方体，分为A, B, C三个维度，三个维度的大小分别是:40, 400, 4000;
现在将这个立方体沿每个维分为四个部分，那么在A, B, C三个维上，每一个基本段的大小就是10，100，1000。整个立方体也被分为了64个部分，如下图：
按序号升序开始遍历。当遍历到4时，2-D立方体（实际是表）中的 $b_0c_0$ 已经计算完毕，同理，遍历到5时， $b_1c_0$

最低0.47元/天解锁文章

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘：数据立方体的多路数组聚集

数据立方体的多路数组聚集最近上课老师讲到数据立方体，讲到了数据立方体的预处理。为什么要预处理？因为如果不预处理的话，每次需要相关信息都需要从头计算，需要消耗大量的时间，因此为了便于选取数据，需要对数据立方体进行预处理。预处理一般分为两种：部分处理（冰山立方体，外壳立方体等等）完全处理，下文就要讨论一种完全处理的方式：多路数组聚集。用最简单暴力的方法来进行完全处理的话，在应对很大的数据集...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。