快速入门数据仓库(Data WareHouse)

在很久很久之前,异世界里生活着许许多多的种族,有人类、有精灵、有兽人,还有哥布林、魔王…
 
这个异世界的神想要统一的管理这些种族,于是神打造了多个象征权力的戒指,分发给每个种族的首领——这个戒指可以帮助他们更好的管理和控制各自的种族。
 
而神拥有一个独一无二、至高无上的戒指,从而控制每个种族的领袖,进而控制整个异世界。
 
这个异世界的每个生命就是一条数据(Data),每个种族首领拥有的戒指就是数据库(Data Base),而那个最独一无二的戒指就是数据仓库(Data WareHouse)。

content

  1. 数据仓库的概念
  2. 数据仓库VS数据库
  3. 数据仓库的发展
  4. 数据仓库的用途
  5. 数据仓库面临的挑战

 
 
 
 

数据仓库的概念

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。

  • 面向主题 —— 从字面意思似乎难以理解,但通过对比就很好解释:与面向主题相对应的是面向应用。比如单纯的一次「支付」就是面向应用,而一整个「交易」就是面向主题
  • 集成 —— 集成就是把不同数据源的数据整合到一起,即使数据的类型是不同的。比如一个数据源使用男/女,另一个数据源使用1/0,数据仓库的作用就是将它们进行格式统一
  • 相对稳定 —— 仓库里存有很多「既有且固定」的数据,这些数据必须保持稳定。比如一个订单已经支付成功,包括支付时间、支付金额之类的数据已经既有且固定,仓库需要保护其稳定不变
  • 反应历史变化 —— 这是数据仓库的一个非常鲜明的特征。数据库只会拥有某个时间段的「当前数据」,数据仓库则拥有并保护「历史数据」

 
除了定义中提及的4个最重要特点,其他的特点还有:

  • 汇总的 —— 数据要汇总并映射为决策可用的格式
  • 大容量 —— 数据仓库中需要存放巨量的历史数据
  • 非规范化 —— 如数据库使用的范式就是规范化的,没有冗余;数据仓库中存在冗余,且大多数数据都是冗余
  • 高效率 —— 很好理解,年报表到无所谓,日报表甚至小时报表,显然是不能给出得太迟的
  • 数据质量 —— 失真数据、脏数据会导致错误的决策
  • 扩展性 —— 一个数据仓库非常之大,需要考虑其3~5年的扩展性,不能总是推翻重新构建

 
 

数据仓库VS数据库

  • 数据粒度——数据库倾向细节操作,粒度小;数据仓库倾向历史分析,粒度大
  • 数据生命周期——数据库即时,数据经常死掉;数据仓库保存历史,数据都很长寿
  • 建模方法——数据库采用范式模型;数据仓库采用DW范式/DM纬度模型
  • 时间敏感度——显然数据库敏感度高(即时);数据仓库敏感度低(容忍延迟)
  • 目标——数据库面向业务处理;数据仓库面向用户分析

 

数据仓库的发展

  1. 简单报表阶段——主要用于提供一些帮助领导决策的数据;最大的用途的生成报表
  2. 数据集市阶段——能够进行一定的数据采集、整理;进行多维报表;并且能提供特定的领导决策数据
  3. 数据仓库阶段——已经能够提供指导性数据;提供全面的领导决策数据

 

数据仓库的用途

① 整合公司所有业务数据,建立统一的数据中心

② 产生业务报表,用于作出决策

③ 为网站运营提供运营上的数据支持

④ 可以作为各个业务的数据源,形成业务数据互相反馈的良性循环

⑤ 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果

⑥ 开发数据产品,直接或间接地为公司盈利

 

数据仓库面临的挑战

  1. 无法满足快速增长的海量数据存储要求
  2. 无法有效处理不同类型的数据
  3. 本身的计算和处理能力不足

 
 
 
 
 
 
 
 
 
 

引用:

 
推荐

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值