Kimball多维模型的四大误解

最新推荐文章于 2022-03-24 10:16:47 发布

老贝伏枥

最新推荐文章于 2022-03-24 10:16:47 发布

阅读量627

点赞数

分类专栏：数据模型文章标签：数据仓库数据建模

本文链接：https://blog.csdn.net/shakarzhou/article/details/107522504

版权

1 篇文章 0 订阅

订阅专栏

很久没看模型方面的理论知识，最近3年在互联网公司琢磨前行，遇到了很多坑和自我否定或迷惑的状态。就多维模型来说，被传统行业洗礼，还有误人子弟的网上文章和CUBE工具，把kimball带入了一个万劫不复的误区。我是幸运的，而且逃离了这个误区。接下来讲解一下我亲身经历的(Raph总结的)四大误区：

原因：完全是被某些cube工具带偏了对kimball的理解。如Kylin, 只能选择5~10个维度构建cuboid。
事实上，多维模型首先是把某个业务过程，基于最细粒度构建维度化模型。互联网数仓常用的大宽表，一般采用这个方式构建维度公共层模型。
怎么能说它只包含汇总数据呢？

原因：很多项目采用Inmon构架基础数据层，然后构建多维数据集市。导致很多码农以为，维度模型仅仅适用于某个部门的产品需求。
事实上，多维模型是围绕企业总线架构和价值链的业务过程来构建，构建星型或雪花型维度化模型。比如总线矩阵，主题宽表层，就是面向企业级。

原因：维度模型只能装有限少量维度的汇总数据，一旦迭代维度，模型就需要重构和预计算数据。
事实上，给终端用户报表的汇总数据，属于聚集事实表，这很不容易扩展。聚集事实表，衍生于最细粒度构建的维度模型。如果说模型不可扩展，或数据量必须有限，那就是设计者的建模理论缺乏导致。

原因：很多算法工程师，总是基于汇总的数据做模型演练和机器学习。一旦迭代，他们就得重新去取数，构建数据集。
事实上，构建最细粒度的、高内聚低耦合的维度模型，非常容易扩展，并且主动拥抱迭代。

希望此文，对迷途中的你有所帮助。

关注