什么是数据仓库

《Hadoop构建数据仓库实践》读书笔记
作者:王雪迎

1.数据仓库的定义
数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
a.面向主题:
主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。
主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子
b.集成:
从公司层面整体分析销售数据,必须将多个分散的数据源统一成一致的、无歧义的数据格式后,再放置到数据仓库中。
因此,数据仓库必须能够解决诸如产品命名冲突、计量单位不一致等问题。
c.随时间变化
为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数据。
换句话说,数据仓库中的数据是反映了某一历史时间点的数据快照,这也就是术语“随时间变化”的含义。
当然,任何一个存储结构都不可能无限扩展,数据也不可能只入不出地永久驻留在数据仓库中,它在数据仓库中也有自己的生命周期。到了一定时候,数据会从数据仓库中移除。
移除的方式可能是将细节数据汇总后删除、将老的数据转储到大容量介质后删除和直接物理删除等。
d.非易失
非易失指的是,一旦进入到数据仓库中,数据就不应该再有改变。

数据仓库除了上面四大特性,还有个重要的概念,就是粒度。
粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。例如,单个事务是低粒度级别,而全部一个月事务的汇总就是高粒度级别。

数据仓库的数据来源:各个业务应用系统。
关系数据库里的结构化数据:Oracle、MySQL、SQL Server等
非结构化数据:可能是文本、CSV等平面文件或Word、Excel文档
半结构化数据:还可能是HTML、XML等自描述的
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值