白话数据仓库概念

数据仓库不是什么高深的技术,但却是一套高深的方法论
来自度娘的词条:数据仓库是面向主题的,集成的,不可更新的,反映历史变化的,非规范化的,用以对数据进行重组织,重存储,用于支持管理决策
白话一下我对上面的几个词的理解,若理解有误,欢迎拍砖:
面向主题:
经典数仓理论"主题"是一个比较抽象概念:指的是数据应用逻辑关注点,如关注销售,就是销售主题,关注用户行为:就是用户行为主题.然后基于这些主题进行建模
进入移动互联时代后的数仓主题:可以理解面向业务,他就相当于一个命名空间,当一个数据仓库收集到来自各个不同的业务数据时,对这些不同的业务的数据设置不同主题

集成的:
集成包含几层意思,
1.上面说不同业务库数据,经集成到一个统一的数据仓库,
2.同一个公司不同业务间往往有着千丝万缕的关系,最直观的就是维度建设:
业务可以千差万别,但用户,地域,时间等等维度元素却是必须且想通的,在进行数仓建模时,不同的主题间抽象,并统一这些维度,使之成为一个公共的维度域

不可更新:
数仓的理念是,历史就是历史,对于进入数仓的数据只增,不减,不改,但实际数仓建设中,只能尽量,很难做到一点数据都不改

反映历史变化:
业务数据库的特点是业务指导数据,业务说增就增,说改就改,说删就删,数仓说你来这里就休想走,业务数据库更改的数据,你来到数据仓库后,改前和改后的数据都存,并用时间戳来区分数据有效期(type II),要么也跟着更新,但会有冗余的字段来存储更新前的数据(type III)

非规范化,或反规范化:
在业务数据库设计中通常会遵循数据库设计范式设计,避免数据存储冗余,但在数据仓库设计中,由于数据量大,通常在查询中的避免大量的表关联,将相关数据进行冗余存储,这是一种以空间换时间的设计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值