数据仓库建模实践

前面的文章中我们讲到了数据仓库。我们都知道,仓库的一般意义是指一个特别大的是用于存放各种物品的库房,所以,数据仓库常常可以给人一个很直观的理解,就是一个可以存放各种数据的大的存储。

在建设数据仓库时,我们常常要对数据进行分层,比如常见分层方式:ODS层->DWD层->DWB层->DM层->ADS层。

数据仓库建模通常是指DWD层的建模,因为DWD是数据仓库中使用最广泛的数据分层,我们需要尽可能保证这一层的易用性。DWD层的模型很大程度上影响了一个数据仓库项目甚至数据平台项目的成败。本文将针对DWD层数据建模分享一下我们在项目上的实践经验。

数据仓库基本特征

开始之前,我们先来了解一下数据仓库的特征。

数据仓库的相关概念最早是由 W. H. Inmon 于90年代提出来的,Inmon也因此被大家认为是数据仓库之父。在Inmon的数据仓库理念里,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、非易失(Non-Volatile)且时变(Time Variant)的数据集,用于支持管理决策。

面向主题、集成、非易失且时变是数据仓库的四个基本特征。其中,面向主题可以认为是一种面向分析的数据分类和映射;集成的是指将不同的数据源的数据集合到一起以便于分析;非易失可以理解为稳定,是指进入数据仓库的数据不会发生修改;时变是指数据仓库的数据需要保留历史,以便于任何时候回头对数据进行分析。

数据仓库主键

时变这个特征对数据仓库建模提出了最基本的技术上的要求,我们的数据模型要如何建立才可以保留所有历史数据呢?Inmon在《数据仓库》这本书里面提出了一些新的概念,可以帮助我们实现时变这个特点。

首先,每一张数据库表都应当有一个主键,它可以唯一标识一条数据,以便支持数据的查找、更新、关联。这是当前业务系统数据库模型设计的一个基本指导原则。很多数据库设计指导甚至会建议为所有表设计一个自增且无业务含义的字段作为主键。唯一字段主键为数据查询及关联提供了很大的方便。

实际操作中,我们可以认为业务系统的所有数据库表中均存在一个主键,如果没有单一字段主键,也应该有多个字段可以组合成为一个主键。多个字段形成的主键在数据库设计中被称为复合主键。

我们可以向业务系统数据库设计人员了解主键字段是哪些,也可以通过基本的数据分析找出主键(比如,观察表中的非空字段可以辅助发现主键字段)。其实,就算业务系统数据库设计人员告知了我们哪些字段是主键,本着怀疑的态度,我们也应该要从数据层面进行主键验证。通常我们可以通过执行SQL来验证主键,对比多字段唯一计数(count(distinct concat(col1, col2)))和数据库数据总行数(count(*))的值,如果两者相等,则这些字段可以作为主键字段。

保存数据历史其实就是根据数据主键进行保存,历史数据将包含每一个主键(每一条条数据)对应的所有的变更。

如果我们直接将所有历史数据存储到一张表里面(保持与业务系统表字段一致),那么数据库仓库中的表的主键就将变得模糊不清,不便于使用,(这是ods层的数据情况,所以一般不建议直接从ods取数使用)。一般而言

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值