**数据仓库概述**

数据仓库由来
为什么会有数据仓库,首先,数字化信息之后,我们现有了数据,数据发展到一定程度之后,我们发现很多数据都是离散的,分布在不同的系统中,而当我们分析数据的时候,需要把很多数据集合起来才能得到想要的结果,想想如果有一个大系统就是放数据的,问题不就解决了?!基于这一目的数据仓库产生了。
最初的数据仓库是为了更好的支持报表系统,更快速的拿到分析报告,这一目的到现在,依然是数据仓库的基础之一。另外,仓库一词和它的词义一样,为了存储,存储的是什么吗? - 数据,在数据被认为是资产的今天,数据的重要性尤为重要。数据仓库发展经历了:普通业务性数据库 -> MPPDB -> 大数据平台,为什么会这样? 因为最初的数据体量和数据内容,在简单的业务系统就可以搞定,后面体量增加,内容也越来越丰富,发小系统搞不定,那就用多个小系统,于是MPPDB诞生了,在多个小系统上增加统一管理功能后的一个仓库,直至当今的大数据平台,其解决方案都是有Google的Apache社区根据论文产生的。截至现在为止,数据仓库已经兼容结构化数据,就是我们常说的表和非结构化数据,我们常说的文档、图片、音频等。

数据仓库层级
普通数据仓库包含多个逻辑层级结构,普遍划分如下
(名字叫法也许不同,但是实际做的事情类似):
外围数据入口:这个可以是文件接口、API接口等其他数据入口(这层本身不属于数据仓库)
数据源层:原始数据层,这里存放最原始的数据,与外汇入口数据一致
数据层:由于数据源层由外围数据提供,有些外围数据根本无法使用,所以需要做清洗,这里存放清洗后的数据。到这里已经可以为一些报表提供服务了
汇总层:为了方便后续逻辑加工,按一定的分段去汇总数据后的一些数据集合,大部分目的是为了提高报表生成速度。
主题层:将具有特定含义的数据,根据常用的需要放在一起,变成支撑报表的通用数据集合
集市层:为了支持特定业务的数据集合
数据出口:提供其他形式的数据服务(本层也不在数据仓库内)
相对成熟的数据仓库层间流转时,像一个∞一样中间小两头大,数据源层数据 和 主题层、集市层都会有比较大的数据集合,但是数据层和汇总层的数据会比较有限。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值