clouderaManager--------------知行教育大数据分析平台(三)

本文介绍了数据仓库中的维度分析,包括维度、指标、分层和分级、上卷和下钻。接着讨论了数仓建模,如三范式和维度建模,以及事实表和维度表的概念。提到了数仓的两种常见建模方式——星型模型和雪花模型,并阐述了SCD渐变维。最后,讲解了数仓的分层设计,包括ODS、DW和ADS层的功能和角色。
摘要由CSDN通过智能技术生成

维度分析

数据仓库中的数据分析处理,其实就是对数据按照维度进行分析

维度

大白话:以不同的视角去看待数据

维度是事务的特征,如颜色、区域、时间等,可以根据不同的维度来对指标进行分析对比。

维度也可以分为:

  • 维度:在事务的特性上去看待数据,按照地理位置分布计算指标、按照颜色来计算
  • 维度:在事务的数值上去看待数据,比如:按照分数的区间统计各区间的学生人数

指标

大白话:被看待的数据主题

指标是衡量事务发展的标准,也叫度量,如价格,销量等;指标可以求和、求平均值等计算

指标也分为:

  • 绝对数值指标:体现的是绝对值上的数据指标结果。比如 访问量、购买量、客单价
  • 相对数值指标:体现的是在相对值上的数据指标结果。比如:课程通过率、访问转化率

维度的分层和分级

维度并不是固定的,维度都可以对其进行细化得到其子维度。
在维度上,会有层级关系
表示上层和下层关系,我们叫做分层
同层之间的关系我们叫做分级

image-20201222085141501
如图,课程维度这里就是 2层,4等级。

维度的上卷和下钻

上卷:从当前维度向上找其上层维度进行统计分析

下钻:从当前维度向下找其下层维度进行统计分析

数仓建模

两种常见的数仓设计

  • 三范式建模
    尽量减少数据冗余,以关联的形式去关联数据
    优点:空间占用小,数据冗余少
    缺点:查询要用很多的JOIN
  • 维度建模
    不在意数据冗余,尽量为了维度而服务
    优点:查询的时候不需要多数的JOIN
    缺点:数据占用空间大
    对于现代的企业来说,空间换性能,是划算的。因为硬盘便宜(相对)。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔界小皮蛋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值