数据仓库_总结

 

数据仓库_总结

 

一,数据类型

数据储存库将包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。高级数据库系统包括对象-关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。

1.1关系数据库

关系数据库是表的汇集,每个表都赋予唯一的名字。每个表包含一组属性(列或字段),通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构造语义数据模型,如实体-联系(ER)模型。ER数据模型将数据库表示成一组实体和它们之间的联系。

1.2数据仓库

数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。

为便于决策,数据仓库中的数据围绕诸如顾客、商品、供应商和活动等主题组织。数据存储从历史的角度(如过去的510年)提供信息,并且通常是汇总的。

通常,数据仓库用多维数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放某种聚集度量值,如countsales_amount。数据仓库的实际物理结构可以是关系数据存储或多维数据立方体(multidimensional data cube)。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。

1.3 数据集市

你可能会问:我听说过数据集市。数据仓库和数据集市的区别是什么?数据仓库收集了跨部门的整个组织的主题信息,因此它是企业范围的。另一方面,数据集市(data mart)是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。

1.4联机分析处理OLAP

通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户。OLAP操作的例子包括下钻(drill-down)和上卷(roll-up),允许用户在不同的汇总级别观察数据。

 

1.5 事务数据库

一般,事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含唯一的事务标识号(trans_ID)和组成该事务的项的列表(如,在商店购买的商品)。事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店的ID号,等等。

1.6 综合决策支持系统

把数据仓库、OLAP、数据挖掘和模型库结合起来即形成综合决策支持系统;其中的数据仓库用来实现对决策主题数据的存储和综合,OLAP用于多维数据分析,数据挖掘用以从数据库和数据仓库中提取知识,模型库实现多个广义模型的组合辅助决策;再加上专家系统,则可利用知识推理进行定性分析。

二,剖析数据仓库

1.数据仓库带来了什么

数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流程,其他的流程也因此而改变。
  数据仓库为企业带来了一些以数据为基础的知识,它们主要应用于对市场战略的评价,和为企业发现新的市场商机,同时,也用来控制库存、检查生产方法和定义客户群。

每一家公司都有自己的数据。数据仓库将企业的数据按照特定的方式组织,从而产生新的商业知识,并为企业的运作带来新的视角。
  2.为何要建立数据仓库

计算机发展的早期,人们已经提出了建立数据仓库的构想。数据仓库一词最早是在1900年,由Bill Inmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设计和建立的数据集合。

企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。
  企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。
  处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?

  事务型数据库可以为这些问题作出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。

  数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——数据仓库。数据仓库是按回答企业某方面的问题来分主题组织数据的,这是最有效的数据组织方式。
 
  3.数据仓库的组成

数据仓库的处理过程中要用到许多的硬件和软件,包括:
  将信息从事务型数据库中提取出来并加载入数据仓库的软件。 ETL数据抽取工具

  数据清洗软件——去除来源于不同的数据源的不一致的数据。 分析引擎
  支持决策支持型数据库的硬件和数据库软件。指标模型体系
  管理元数据(描述数据的信息)的软件。 指标模型体系
  商业智能软件——用来向用户前端展现数据仓库里的数据信息。 BI 商业智能
  软件代理——寻找合适的数据类型,并给特别的用户发送警告。
  数据挖掘软件——寻找、发现数据中隐藏的信息。

  4.数据仓库和数据集市

有关决策支持型数据库的数据集市是面向企业中的某个部门或是项目小组的。一些专家顾问将数据集市的建造描述为建立数据仓库全过程中的一步。首先,一个储存企业全部信息的数据仓库被创建,其中,数据均具备有组织的、一致的、不变的格式。数据集市随后被创立,其目的是为不同部门提供他们所需要的那部分信息。数据仓库聚集了所有详细的信息,而数据集市中的数据则是针对用户们的特定需求总结而出的。
  而另外一些专家则认为数据集市的建立并不需要首先建立一个数据仓库。在这个模型中,数据直接由事务型数据库转入数据集市中。一个公司可能建立有多个数据集市,而彼此之间毫无联系。

  这种不在建立数据仓库的基础上创建数据集市的方式会更便宜、更快速,因为它的规模更加易于管理。

  第二种观点的缺陷在于无法实现最初创建数据仓库的最主要的目的——将企业所有的数据统一为一致的格式。现有的事务处理系统的数据往往是不一致、冗余的。如果首先建立

  起一个全公司范围的数据仓库,组织就能够获得一个统一关于企业的活动和客户的知识库。如果先建立起一个个独立的数据集市,那么数据仓库的诸多优势都能够得以实现,但是企业远远无法做到对数据的一致的储存。

  5.数据仓库开发过程

开发数据仓库的过程与建筑工程非常类似。先测定出实际的需求,再聘用一位建筑师,制定出详细的计划,审查,并最终确定下来。然后估算出整个工程的成本,待方案通过后,工程正式启动。
  两者的区别在于:一个建筑工程可以竣工,但是一个数据仓库的开发永远不会结束!因为总会有数不完的数据等待着被加载入数据仓库;新的查询和警告的可能也随时会在下一秒出现;数据一致性问题总会出现并等待着解决;而且,还需要不断的对用户进行培训,这样他们才能够充分利用数据仓库的潜能。

  所以,在这一领域所存在的最大的误区就是:人们把过多的精力投放在数据仓库的建立过程上,而没有意识到开发数据仓库是一个永无止境的过程。数据仓库的开发是一段永远前行的旅程。旅途中,会路过一座座的里程碑,但是永远没有终点。

  6.从敏锐的观察到以数据为基础的知识

感觉敏锐的市场营销专家往往能够从仔细的观察研究中发现到大量的商机。
  而数据仓库能够为我们带来以数据为基础的知识”——一些当前的精确而详细的信息!专家们只要直接查看数据仓库中的相关数据,就可以发现他们想知道的一切。商业智能工具以更加多元化的视角来帮助专家们观察数据。商业专家可以与数据仓库的设计师一同开发出能够自动地发现有价值的信息,并提交企业所需要的分析报告。

  尚无文字社会的人类是通过记住信息来为自己获得知识,并将这些知识传递给别人。

  学会阅读和书写后,文明开化的人类能够成倍的增加他们所能够了解并与其他人分享的知识。他们拥有工具来帮助记忆和教学。

  而在计算机发明之前,商人们通过仔细的观察和敏锐的感觉来获取知识。如今,以数据为基础的知识的出现,成为了另一个有力的知识来源。

而数据仓库正是产生这一新知识的工具!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值