数据仓库之宽表

宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。(一句话,空间换时间,便于训练迭代、减少表关联数量,修改少量数据时不需要该多张表)
窄表:严格按照数据库设计三范式。尽量减少数据冗余,但是缺点是修改一个数据可能需要修改多张表
举例参照:https://www.cnblogs.com/Leo_wl/p/8515794.html

数据仓库中的宽表和汇总表是数据仓库中非常重要的两个表。下面我向您介绍一下它们的设计方法: 1. 宽表设计方法 宽表是指包含了多个数据源(表)中的所有数据的一张表。它能够提高数据查询的效率,避免了多表关联查询的过程,同时也能够方便数据分析师进行数据建模、分析和报表制作。宽表的设计方法如下: - 根据业务需求,选择需要加入宽表的数据源,包括数据源的字段、数据类型等。 - 将各个数据源的数据合并到一张表中,通过一些特定的字段进行关联,如日期、地点、产品等。 - 对宽表进行必要的数据清洗和转换,包括数据类型的转换、数据格式的规范化、空值处理等。 - 对宽表进行性能优化,包括数据压缩、数据分区、索引等操作,提高查询效率。 2. 汇总表设计方法 汇总表是指在数据仓库中,把细节数据按照一定的规则聚合起来的一张表,通常是根据不同的维度进行聚合。汇总表的设计方法如下: - 根据业务需求,确定需要聚合的指标和维度。 - 对每个维度,定义需要聚合的指标和聚合方式,如求和、平均数、最大值、最小值等。 - 对于聚合结果,根据业务需求,可以设计多个汇总表,包括日、周、月、季度、年等不同的时间粒度表。 - 对汇总表进行必要的数据清洗和转换,包括数据类型的转换、数据格式的规范化、空值处理等。 - 对汇总表进行性能优化,包括数据压缩、数据分区、索引等操作,提高查询效率。 总之,数据仓库中的宽表和汇总表设计方法,需要根据具体的业务需求和数据特征进行设计和优化,以提高数据仓库的数据查询效率和数据分析的准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值