什么是数据仓库

原创 2004年08月22日 20:11:00
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

    根据数据仓库概念的含义,数据仓库拥有以下四个特点:
     1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

     2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

     3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

     4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。

a1.jpg
数据仓库系统体系结构

·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

数据仓库--名词解释

1. ODS(Operational Data Store)         ODS 为企业提供及时的, 操作型的, 集成的数据集合, 具有面向主题性, 集成性, 动态性, 及时性,明细性等特点.  ...
  • nxcjh321
  • nxcjh321
  • 2016年10月09日 18:36
  • 900

维度模型数据仓库(四) —— 初始装载

(三)初始装载         在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓...
  • wzy0623
  • wzy0623
  • 2015年11月01日 14:44
  • 2217

数据仓库学习(1)

数据仓库本来从大学的时候我就没有接触过,数据库,数据结构这两门课程有基础,对于数据仓库不是太了解,能够开始接触到数据仓库,最直接的原因就是找工作,我面试京东金融数据仓库的岗位,结果全部的问题全都是关于...
  • wjcquking
  • wjcquking
  • 2015年03月26日 10:51
  • 1611

简要总结 数据仓库VS数据库

本文简要总结以下两个问题,旨在快速理解“数据仓库” 1、什么是“数据仓库”? 2、“数据仓库”与“数据库”的区别? 下面做详细阐述: 1、什么是“数据仓库”? “一个数据仓库通常是一个面...
  • wl101yjx
  • wl101yjx
  • 2014年06月15日 18:51
  • 1834

认识数据仓库建设意义

随着近几年互联网的蓬勃发展,网购用户成级数级增长。仅去年双十一当天销售额就突破了900多亿元。各家网购平台都开始收集交易数据,分析各地区各行业客户购物习惯,同时,利用交易数据和客户行为推出新产品或新功...
  • JAVA_QinWXiao
  • JAVA_QinWXiao
  • 2016年02月28日 13:29
  • 1711

数据仓库工作总结(觉得有点意思)

1.   概述 本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正。 文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格。很多问题我只...
  • jiangshouzhuang
  • jiangshouzhuang
  • 2015年06月21日 16:48
  • 1644

[转]开源数据仓库解决方案GreenPlum

Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能...
  • heiyeshuwu
  • heiyeshuwu
  • 2016年05月03日 18:51
  • 5113

数据仓库成功的主要指标

数据仓库项目开始之前,为慎重起见,先花费一点时间评估一下继续行进所需要的机构准备情况。 根据从开发实践中积累起来的经验,确定了五个用于区别能够平稳推进的项目与总是出问题的项目的因素。 这些因素是衡...
  • liguoming05
  • liguoming05
  • 2013年09月09日 09:36
  • 1176

谈谈数据仓库架构的发展和分类

最近在网上看到了  Jerome 20061210 最近大家对数据仓库架构的讨论又多了起来,我在这里对一些架构进行一下简单的整理。目的是给大家树立一个靶子,大家可以在这篇文章后...
  • yangxin114
  • yangxin114
  • 2014年06月20日 10:06
  • 2157

腾讯数据仓库 -- 平台综述

腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何...
  • nxcjh321
  • nxcjh321
  • 2016年10月10日 09:49
  • 375
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:什么是数据仓库
举报原因:
原因补充:

(最多只允许输入30个字)