Kimball多维模型的四大误解

很久没看模型方面的理论知识,最近3年在互联网公司琢磨前行,遇到了很多坑和自我否定或迷惑的状态。就多维模型来说,被传统行业洗礼,还有误人子弟的网上文章和CUBE工具,把kimball带入了一个万劫不复的误区。我是幸运的,而且逃离了这个误区。接下来讲解一下我亲身经历的(Raph总结的)四大误区:

一、维度模型只包含汇总数据

原因:完全是被某些cube工具带偏了对kimball的理解。如Kylin, 只能选择5~10个维度构建cuboid。
事实上,多维模型首先是把某个业务过程,基于最细粒度构建维度化模型。互联网数仓常用的大宽表,一般采用这个方式构建维度公共层模型。
怎么能说它只包含汇总数据呢?

二、维度模型是部门级,不是企业级模型

原因:很多项目采用Inmon构架基础数据层,然后构建多维数据集市。导致很多码农以为,维度模型仅仅适用于某个部门的产品需求。
事实上,多维模型是围绕企业总线架构和价值链的业务过程来构建,构建星型或雪花型维度化模型。比如总线矩阵,主题宽表层,就是面向企业级。

三、维度模型不可扩展,或扩展性差

原因:维度模型只能装有限少量维度的汇总数据,一旦迭代维度,模型就需要重构和预计算数据。
事实上,给终端用户报表的汇总数据,属于聚集事实表,这很不容易扩展。聚集事实表,衍生于最细粒度构建的维度模型。如果说模型不可扩展,或数据量必须有限,那就是设计者的建模理论缺乏导致。

四、维度模型仅用于预测或无法适应业务变化

原因:很多算法工程师,总是基于汇总的数据做模型演练和机器学习。一旦迭代,他们就得重新去取数,构建数据集。
事实上,构建最细粒度的、高内聚低耦合的维度模型,非常容易扩展,并且主动拥抱迭代。

希望此文,对迷途中的你有所帮助。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值