数据仓库工具箱

Kimball经典之作

前言

如果没有对海量数据进行科学分析的能力,沃尔玛的老板再精明,也绝对想不到“啤酒与尿布”这两个风马牛不相及的东西之间还有着千丝万缕的联系。而将它们放在一起,竟然增加了啤酒的销量,可见数据分析的巨大威力。


对于数据仓库来说,业务需求才是第一位的。

产业界已经认定,维度模型是为数据仓库用户提交数据德最可行的技术手段。

联机事务处理(OLTP, Online Transaction Processing)
在线分析处理(OLAP,Online Analystic Processing)

元数据指的是数据仓库环境中除去数据本身之外的所有信息,它是数据仓库的百科全书的同义词。
元数据以各种各样的形态和格式出现而提供对数据仓库的技术、管理或者业务等方面的用户群体的支持。

事实表是维度模型的基本表

事实表的一行对应一个度量值,一个度量值就是事实表的一行,事实表的所有度量值必须具有相同的粒度。
事实表中最有用的事实是数字类型与可加型事实。
在维度模型中,事实表表示维度间多对多的关系。
在维度模型中每个表示多对多关系的表都是事实表,而所有其他的表都是维度表。

维度表

维度表是事实表不可分割的伴侣。
维度表是进入事实表的入口。丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口。
最好的属性是文本的和离散的。属性应该是真正的文字而不应是一些编码简写符号。
维度属性是查询约束条件、成组与报表标签生产的基本来源。
维度表属性在数据仓库中承担着一个重大的角色。
维度表是进入事实表的入口。丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口。
维度模型与数据中心都只是应用于概要性数据方面的。
维度模型与数据中心是针对部门而不是针对企业的解决方案。
维度模型与数据中心仅当存在可预见的使用模式时才适合。
维度模型与数据中心是不能集成的,


库存储藏单位(SKUs, Stock Keeping Units).
统一产品编码(UPCs,Universal Product Codes)

建立的第一个维度模型应该是一个最有影响的模型——它应该对最紧迫的业务问题做出回答,并且对数据的抽取来说是容易访问的。

应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息,这样的数据不能再做进一步的细分。

数据仓库几乎总是要求在每个维度可能得到的最低粒度上对数据进行表示的原因,并不是因为查询想看到每个低层面的行,而是因为查询希望以很精确的方式对细节知识进行抽取。

数据仓库总需要一个明确的维度表。
产品维度是几乎每个数据中心都拥有的两到三个基本维度之一。

退化维度在事实表粒度表示单个事务或者事务分列项目时是很常见的,因为它表示了父实体的惟一标识符。

退化维度经常在事实表主关键字方面发挥着一个有机组成部分的角色。
维度的规范化处理(雪花处理)

维度表的规范化处理一般称做雪花处理(snowflaking).这种处理将冗余属性从平面的退化维度表中去掉,并放到另一个规范化的维度表中去。

雪花处理降低了用户在维度中进行浏览的能力。浏览操作使用户能够了解维度属性值之间的关系。

维度表应该在物理上保持平面的特点。规范化或者雪花维度表制约了跨属性的浏览操作,并禁止对位索引的使用。

代理关键字

极力提倡设计人员在维度模型中使用代理关键字,而不要依赖操作型产品编码。

日期维度是其代理关键字应该以某种富有意义的连续次序进行分配的一种维度。

记住,生活远不仅仅是事务。给出了一个累积性更好的处理视图的快照表,经常伴随事务事实表一起出现。

要使数据仓库能够长期地成功运转,很需要有一种在体系结构上可以按增量方式建造数据仓库的方法。这里极力提倡使用的一种方法是数据仓库总线结构。

累积快照是第三个主要类型的事实表。

通过为数据环境定义标准的总线接口,独立的数据中心就可以由不同的小组在不同的时间进行实现。只要遵循这个标准,独立的数据中心就可以插入到一起并有效地共存。

堆积维度如果是基本层次上原子型维度严格意义上的子集,则堆积维度与原子型维度保持一致。

集中的维度权限的主要职能在于建立、维护与发布对所有客户数据中心来说都是一致的维度。

集中的维度权限的主要职能在于建立、维护与发布对所有客户数据中心来说都是一致的维度。

数据仓库的基本目标之一就是要正确地表示过去的历史数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯子@123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值