【读书笔记-数据挖掘概念与技术】数据立方体技术

本文介绍了数据立方体技术在OLAP和数据挖掘中的应用,包括多路数组聚集、BUC算法、星型树结构的计算方法。讨论了数据立方体的优化策略,如排序、散列和分组,以及如何处理冰山立方体和预计算壳片段。此外,还探讨了抽样立方体、排序立方体、预测立方体和多特征立方体等在高级查询和预测分析中的作用。
摘要由CSDN通过智能技术生成

基本概念:


  • 基本单元:基本方体的单元
  • 聚集单元:非基本方体的单元
  • 冰山立方体:部分物化的立方体
  • 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围)

∵冰山立方体仍有大量不感兴趣的单元需要计

∴引入——闭覆盖——一个单元没有后代或者它的后代的度量值与其不同 

 

法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳

 

  • 计算的一般策略:四种优化技术

1.    排序、散列和分组

2.    同时聚集和缓存中间结果

3.    当存在多个子女方体时,由最小的子女聚集

4.    先验剪枝法

—————————————————————————————————————————————————————————————————————————————

数据立方体的计算方法

  • 多路数组聚集

 

计算以2-D平面为例:

维的大小:A——40;B——400;C——4000

1.    扫描次序为1~64



2.  扫描次序为1,17,33,49,5,21,37,53



 

 

特点:

1.    数组可以直接寻址

2.    将表转换成数组,用数据计算立方体,然后再把结果转换成表。(当然这并不意味着慢)

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值