Hadoop之数据仓库设计

本文介绍了数据仓库中的维度表和事实表,强调事实表存储度量值,维度表提供分析角度。接着讨论了星型模型和雪花模型,以及在数据清洗和性能优化方面的考量。最后,讲解了Hive窗口函数,如row_number()、rank()和dense_rank()在数据排序和分组中的应用。
摘要由CSDN通过智能技术生成

维度表和事实表

事实表:
在多维数据仓库中,保存度量值的详细值或事实的表称为事实表,事实表的记录在不断地动态增长,所以它的体积通常远大于其他表。
维度表:
在事实表中使用整数键值时,维度成员的名称需要放到另一种表中——也就是维度表。通常,事实表中的每个维度都有一个维度表。维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。
结论:

  1. 事实表就是你要关注的内容;
  2. 维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。

例如,某地区商品的销量,是从地区这个角度观察商品销量的。事实表就是销量表,维度表就是地区表。

实例:

事实表: 客户创建信息表
维度表: 销售信息表、店铺信息表、跟进表/约见表/风控通过表/订单表的维度上卷。
在这里插入图片描述

星型模型和雪花模型

维度建模是一种将大量数据结构化的逻辑设计手段,包含维度和指标,它不像ER模型目的是消除冗余数据,维度建模是面向分析,最终目的是提高查询性能,所以会增加数据冗余&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值