数据仓库【3】:建模方法

1、基本概念

1.1、OLTP系统建模方法

  • OLTP(在线事务处理)系统中,主要操作是随机读写
  • 为了保证数据一致性、减少冗余,常使用关系模型
  • 在关系模型中,使用三范式规则来减少冗余

1.2、OLAP(在线联机分析)

  • OLAP系统,主要操作是复杂分析查询;关注数据整合,以及分析、处理性能
  • OLAP根据数据存储的方式不同,又分为ROLAP、MOLAP、HOLAP
    OLAP系统分类
    • ROLAP(Relation OLAP,关系型 OLAP):使用关系模型构建,存储系统一般为RDBMS
    • MOLAP(Multidimensional OLAP,多维型 OLAP):预先聚合计算,使用多维数组的形式保存数据结果,加快查询分析时间
    • HOLAP(Hybrid OLAP,混合架构的 OLAP):ROLAP 和 MOLAP 两者的集成;如低层是关
      系型的,高层是多维矩阵型的;查询效率高于ROLAP,低于MOLAP

2、ROLAP

2.1、ROLAP系统建模方法

  • 典型的数据仓库建模方法有ER模型、维度模型、Data Value、Anchor
    在这里插入图片描述

2.2、维度模型

  • 维度模型中,表被分为维度表、事实表,维度是对事实的一种组织
  • 维度一般包含分类、时间、地域等
    在这里插入图片描述
  • 维度模型分为星型模型、雪花模型、星座模型
  • 维度模型建立后,方便对数据进行多维分析
    在这里插入图片描述

2.2.1、星型模型

  • 标准的星型模型,维度只有一层,分析性能最优
    在这里插入图片描述

2.2.2、雪花模型

  • 雪花模型具有多层维度,比较接近三范式设计,较为灵活
    在这里插入图片描述

2.2.3、星座模型

  • 星座模型基于多个事实表,事实表之间会共享一些维度表
  • 是大型数据仓库中的常态,是业务增长的结果,与模型设计无关
    在这里插入图片描述

2.2.4、什么是宽表模型?

  • 宽表模型是维度模型的衍生,适合join性能不佳的数据仓库产品
  • 宽表模型将维度冗余到事实表中,形成宽表,以此减少join操作
    在这里插入图片描述

3、MOLAP

3.1、MOLAP系统建模方法

  • MOLAP将数据进行预结算,并将聚合结果存储到CUBE模型中
  • CUBE模型以多维数组的形式,物化到存储系统中,加快后续的查询
  • 生成CUBE需要大量的时间、空间,维度预处理可能会导致数据膨胀

在这里插入图片描述

3.2、常见MOLAP产品

  • Kylin
  • Druid
    在这里插入图片描述

4、多维分析

4.1、OLAP多维分析

  • OLAP主要操作是复杂查询,可以多表关联,使用COUNT、SUM、AVG等聚合函数
  • OLAP对复杂查询操作做了直观的定义,包括钻取、切片、切块、旋转
    在这里插入图片描述

4.2、钻取

  • 对维度不同层次的分析,通过改变维度的层次来变换分析的粒度
  • 钻取包括上卷(Roll-up)、下钻(Drill-down)
  • 上卷(Roll-up),也称为向上钻取,指从低层次到高层次的切换
  • 下钻(Drill-down),指从高层次到低层次的切换
    在这里插入图片描述

4.3、切片(Slice)、切块(Dice)

  • 选择某个维度进行分割称为切片
  • 按照多维进行的切片称为切块
    在这里插入图片描述

4.4、旋转(Pivot)

  • 对维度方向的互换,类似于交换坐标轴上卷(Roll-up)
    在这里插入图片描述
  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
IBM数据仓库建模方法论(IBM Data Warehouse Modeling Methodology)是IBM为构建高质量的数据仓库而制定的一套建模方法与指导原则。其目标是帮助组织实现数据驱动决策和分析,从而提高业务效率和竞争力。 该方法论主要包括以下几个方面: 1. 需求分析:在开始建模之前,首先要深入了解业务需求和数据源。通过与利益相关者合作,明确数据需求、目标与范围,以及数据的重要性和可用性。 2. 数据模型设计:根据需求分析结果,设计合适的数据模型来存储和组织数据。这包括确定实体、属性、关系和约束等概念,并选择合适的建模工具和技术来解决特定问题。 3. 数据抽取与装载:将源系统中的数据抽取到数据仓库中。这涉及到数据清洗、转换和加载等步骤,以确保数据的准确性和一致性。 4. 数据仓库更新:持续监控和更新数据仓库中的数据,包括定期的数据抽取和转换过程,以保持数据的实时性和准确性。 5. 数据仓库查询与分析:提供灵活的查询和分析功能,以支持决策和业务需求。这包括使用各种BI工具和技术来提取、分析和可视化数据。 6. 数据质量管理:确保数据仓库中的数据质量高且可信。通过建立数据验证和监控机制,及时发现和纠正数据质量问题。 7. 数据安全与隐私保护:采取必要的安全措施,保护数据仓库中的数据不受未经授权的访问和泄漏。 通过遵循IBM数据仓库建模方法论,组织可以更好地管理和利用数据,提高数据仓库的效率和价值。同时,该方法论还提供了一套通用的指导原则和最佳实践,适用于各种规模和复杂度的数据仓库项目。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

QQ719872578

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值