1 关于数据仓库维度数据处理的方法探究系列——维的概述

原创于2006年12月06日,2009年10月15日迁移至此。

 

在数据仓库中,维度是数据仓库概念的一个重要基础,因此维度的抽取和处理是一个重要的环节,对于不同的维度根据业务需求以及客观原因有许多不同的处理方式,以下将以SQLServer2000语法为例展开。

1 维概述

1.1 概述

维度 是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构( 级别 )。这些分类和级别描述了一些相似的 成员 集合,用户将基于这些成员集合进行分析。 (此概念引之于 SQLServer2000联机帮助 )

所有维度均直接或间接地基于表。当从某个表创建维度时,您会选择定义此维度的列。选择列的顺序至关重要,因为它将影响维度层次结构内成员的位置。 (此概念引之于 SQLServer2000联机帮助 )

维度是有层次的,在大多数情况下维度的成员会按金字塔形布局排列。水平布局由维度层次结构中具有相同级别的列值生成,而垂直布局由维度层次结构中具有不同级别的列值生成。 (此概念引之于 SQLServer2000联机帮助 )

相对应于 OLTP系统,维度表数据主要来自于 OLTP系统中的各个基础表。但是在 OLTP系 统中数据变化比较剧烈,通常只保留最近最新的基础信息;也不会记载基础数据的删除、更新和插入的整个历史过程。而数据仓库则是面向主题的、集成化的、稳定 的、随时间变化的数据集合,这就要求数据必须是递增的,反映历史变化的;因此数据仓库对于维度数据的处理通常的要求是做插入和更新处理,不做删除,否则将 无法完整反映数据的历史和整体情况。

1.2分类

在实际的业务系统中,维度根据变化剧烈程度主要分为以下几类:

1. 无变化维度

如性别维度只有男女,如年龄阶段维度 0~10岁, 10~20岁等等。

2. 缓慢变化维度

维度的变化剧烈程度虽然比较小,但是数据仓库项目中仍要根据实际情况进行维度更新,大部分的维度应属于此部分。

3. 剧烈变化维度

维度的变化剧烈程度比较高,通常做法是对该维度表进行拆解,使其成为缓慢变化维度进行处理。

1.3处理对策

关 于维度的处理主要根据业务需要和数据库对数据处理的处理能力和性能。对于比较敏感和极其重要的数据一定要求其反映整个历史变化,或根据版本或根据时间戳等 等;反之对于不太重要的数据处于数据库性能考虑,建议采用直接更新的办法;而对于没有变化的数据采取一次性加载的方式。在这里为了讨论方便,初步分为以下 几类:

1. 无变化维度处理

2. 缓慢变化维处理

3. 急剧变化维处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python与大数据分析

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值