数据仓库的概念、特点与组成

数据仓库是一个面向主题、集成、相对稳定并反映历史变化的数据库集合,用于决策支持。它从分散的数据库中抽取、清理数据,并通过元数据管理,提供统一的全局信息。数据仓库包括数据仓库数据库、数据抽取工具、元数据、访问工具和数据集市等组成部分,支持查询、报表和数据分析。数据集市是针对特定应用的数据子集,而元数据则描述数据结构和建立方法。
摘要由CSDN通过智能技术生成

1 概念

  1. 数据仓库(Data Warehouse)通常指一个数据库环境,而不是一件产品,它提供用户用于决策支持的当前的和历史数据,这些数据在传统的数据库中通常不方便得到;
  2. 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合;
  3. 通常用于辅助决策支持;

2 特点

2.1 面向主题

  1. 操作型数据库中的数据针对事务处理任务,各个业务系统之间彼此分离,而数据仓库中的数据按照一定的主题域进行组织;
  2. 主题是个抽象概念,指用户使用数据仓库进行决策时所关心的重点领域,如顾客/供应商/产品等;
  3. 一个主题通常与多个操作型数据库相关;

2.2 集成

  1. 操作型数据库通常与某些特定的应用相关,数据库之间相互独立,且往往是异构的;
  2. 而数据仓库中的数据是在原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,因此必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息;
  3. 即存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义;

2.3 相对稳定

  1. 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化;
  2. 数据仓库中的数据主要用作决策分析,涉及的数据操作主要是查询和定期更新,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作;
  3. 即数据仓库中通常有大量的查询操作及少量定期的更新操作;

2.4 反映历史变化

  1. 操作型数据库主要关心当前某一时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据;
  2. 因此数仓中通常包括一个时间维,以便研究趋势和变化;
  3. 数仓系统通常记录了一个单位从过去某一时期到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势作出定量分析和预测;

3 组成

3.1 数据仓库数据库

  1. 数仓数据库是整个数仓环境的核心,是数据信息存放的地方,对数据提供存取和检索支持;
  2. 相对传统数据库,其突出特点是对海量数据的支持和快速的检索技术;

3.2 数据抽取工具

  1. 数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数仓内;
  2. 对各种不同数据存储方式的访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚本或SQL脚本等方式访问不同的数据环境;
  3. 数据转换通常包括如下内容:
    1. 删除对决策分析没有意义的数据;
    2. 转换到统一的数据名称和定义;
    3. 计算统计和衍生数据;
    4. 填补缺失数据;
    5. 统一不同的数据定义方式;

3.3 元数据

  1. 元数据是描述数据仓库内数据的结构和建立方法的数据;
  2. 元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中有什么数据、数据是怎么得到的、怎么访问这些数据;
  3. 元数据是数仓运行和维护的中心内容,数仓系统对数据的存取和更新都需要元数据信息;
  4. 根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类;
  5. 技术元数据是数仓的设计和管理人员在开发和管理数仓时使用的元数据,包括数据源信息、数据转换的描述、数仓内对象和数据结构的定义、数据清理和数据更新时用的规则、源数据到目的数据的映射表,以及用户访问权限、数据备份历史记录、数据导入历史记录和信息发布历史记录等;
  6. 业务元数据是从单位业务的角度描述数仓中的元数据,例如业务主题的描述,即业务主题包含的数据、查询及报表等信息;

3.4 访问工具

访问工具是为用户访问数仓提供的手段,如数据查询和报表工具、应用开发工具、数据挖掘工具和数据分析工具等。

3.5 数据集市(Data Mart)

  1. 数据集市是为了特定的应用目的,从数仓中独立出来的一部分数据,也称为部门数据或主题数据;
  2. 在数仓的实施过程中往往可以从一个部门的数据集市着手,再逐渐用几个数据集市组成一个完整的数仓;
  3. 注意:在实施不同的数据集市时,相同含义字段的定义一定要相容,以免未来实施数仓时出现问题;

3.6 数据仓库管理

数仓管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理与更新、数仓使用状态的检测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。

3.7 信息发布系统

  1. 信息发布系统用于把数仓中的数据或其他相关的数据发送给不同的地点或用户;
  2. 基于Web的信息发布系统是当前流行的多用户访问的最有效方法;
随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。<br><br>数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。 <br><br>  ⑴数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 <br><br>  ⑵存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 <br><br>  ⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。 <br><br>  提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢?<br><br>从数据库到数据仓库 <br>  市场需求是技术发展的源动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。记得在80年代末,北京工商银行率先推出了全市个人储蓄通存通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这便是通过联机事务处理系统而获得市场优势的案例。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。 <br><br>  然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性(如:某类职业圈、某年龄段)的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” <br><br>  事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。 <br><br>  那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初, 人们固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方便地获得信息。我们只要翻开 C.J. Date博士的经典之作《An Introduction to Database Systems》便会发现:今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而,“成也萧何,败也萧何”,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题”——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。 <br><br>  以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。 <br><br>  从厂商的角度看,经过长期发展,联机事务处理系统的市场至90年代中期出现饱和迹象,其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为20世纪末到21世纪初数据库市场的一个新的增长点。因此,数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“拿来主义”,避虚就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。 <br><br>  总之,数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。<br>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hellosc01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值