- 数据仓库的概念
该定义概括了数据仓库中数据最主要的四个特征:
(1)面向主题 主 题是一个在较高层次上对数据进行综合、归类和分析利用的抽象概念。在逻辑意义上,每一个主题可对应一个宏观分析领域所涉及的分析对象。传统数据库是面向应 用建立的,其数据的组织仅按具体的应用处理要求来划分,未必适合于决策分析。而数据仓库则是面向主题建立的,如一个保险公司虽然有财产保险、养老保险、伤 亡保险等各项应用,但其数据仓库所组织的主题却可能是客户、保险金、索赔等。
(2)集成 数 据仓库的数据是从原有分散的数据库的数据中抽取、集成得到的。事务数据与支持决策分析的数据之间差别甚大,数据仓库中的数据是用于支持决策的,因此在数据 进入数据仓库之前,必然要经过抽取、加工与集成,这一步也是数据仓库建设中最关键、最复杂的一步。这里,首先要解决的问题就是事务数据中的所有矛盾之处, 如字段的同名异义、异名同义、单位不统一、字长不一致等等,并将数据结构从面向应用转换到面向主题,有时还要将从不同数据库(可能是异构的)中提取的数据 按统一的模型和模式组织。数据仓库一般将集成后的数据分成不同的级:如近期基本数据、远期基本数据、轻度综合数据、高度综合数据、元数据。
(3)稳定 数据仓库中的数据是从数据库存放的历史数据中,以不同时间的快照选取得到的集合,以及基于这些快照进行统计、综合和重组得到的导出数据,而不是当前数据库联机事务处理的数据。因此数据仓库的数据是稳定的不再变更的,数据仓库一般只涉及与查询、分析等相关的处理。
(4)随时间变化 数 据仓库根据所研究主题的需要,其中的数据会随着时间积累和变化,不断增加新的数据内容,删去不再需要的数据内容,进行新的综合、重组。因此数据仓库的数据 内容是按处理的要求不断地随时间变化的,这就要求数据的码键都应包含时间属性,以标明该数据所对应的不同历史时间段。
- 数据仓库在制造业信息化中的两大作用
(2)支持决策分析 在信息技术不断发展的今天,人们对信息的使用也越来越复杂。企业高层管理者需要从积累的丰富数据中提取有用信息,进行各种复杂分析,如长期趋势分析和数据开采等,以力图找出规律性的知识规划,更科学地作出决策。
企 业信息化中存在两类不同的数据处理:操作型数据处理和分析型数据处理。操作型数据处理也叫事务处理,如业务人员对数据库联机地进行日常操作,通常是对一个 或一组记录的查询和修改。对此,人们关心的是响应时间、数据安全性和完整性。分析型数据处理则用于管理人员的决策分析,经常要访问大量来自多方面的历史数 据、高度概括的数据,其数据容量非常大(到Tb级)。显然,这两者间的巨大差异使得操作型处理和分 析型处理的分离成为必然。传统数据库只适用于操作型处理,数据仓库适用于分析型处理。为了满足企业信息处理需要,企业的数据环境应发展为一种由操作型环境 和分析型环境共同构成的体系化环境。数据仓库是企业数据体系化环境的组成部分,是建立决策支持系统(DSS)的基础。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/17179887/viewspace-626360/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/17179887/viewspace-626360/