数据挖掘：数据立方体技术的基本概念及计算的一般策略

最新推荐文章于 2020-08-09 10:26:36 发布

shuaiOKshuai

最新推荐文章于 2020-08-09 10:26:36 发布

阅读量4.6k

点赞数 1

分类专栏：数据挖掘与机器学习文章标签：数据挖掘数据库大数据冰山立方体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuaiokshuai/article/details/38090411

版权

数据立方体技术，是数据挖掘中的一个基本概念。它是将多维数据，按照其对应的多个维度，生成一个多维的类似于立方体的结构，方便进行多维数据的OLAP操作。

在数据立方体中，主要的操作就是我们平时接触比较多的数据库中的聚集操作：sum，count，max，min等。与此相对应，也就不难理解，数据立方体其实就是在大量的多维数据中，进行了一个group by的操作，使得数据能够按照一定的规则聚集起来，从而形成一些小的立方体，继而观察各种聚集的值。还会看到，基本方体的单元是基本单元，也就是说每个维上都是具体的值，而无任何的维上的聚集操作。对于非基本单元则是聚集单元，因为非基本单元肯定是在某个或某些维上进行了聚集操作。同时，使用“*”来表示被聚集的维。

在这里，有个祖先和后代的相对概念。专业的说，祖先是后代在某些维上的上卷操作，不考虑某些维或某些维已被上卷；而后代，则是祖先在某些唯上的下钻操作，更细致的去考虑某些维。因此祖先是后代的泛化，后代是祖先的具体。

冰山立方体。当如果想物化完全立方体时，如果数据量很大，则会使得在存储空间和OLAP的响应时间上消耗很大。因此，就有人提出了一种部分物化的概念：冰山立方体。在计算立方体时，当某一立方体的值小于一定的阈值时，则将这个立方体裁掉；当大

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘：数据立方体技术的基本概念及计算的一般策略

最近在看数据挖掘的相关内容，因此
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。