数据仓库的灵魂--元数据

       企业数据量的日益膨胀以及数据的多样性和复杂性,使人们不禁感叹二十年前查询不到数据是因为数据太少,而现如今查询不到数据则是因为数据太多了。如何及时地从海量的原始数据中提取更多、更好地信息,为企业的决策分析服务,成为人们一直关心的问题。在这种情况下,数据仓库技术应运而生。数据仓库能把企业决策所需的信息从企业原始数据中分离出来,把分散的、难以访问的原始操作数据转化为集中统一、随时可用的信息,实现了对信息合理、全面而高效的管理,因此很快在金融、证券、保险等联机事务处理密集型行业得到广泛的应用,取得了较好的效益。随着数据仓库技术应用的不断扩展,元数据开始成为企业信息综合管理的关键,元数据管理越来越引起人们的重视。元数据是数据仓库的灵魂。那么什么是元数据呢?元数据和数据仓库的关系又是什么呢?

 

1.元数据

Metadata(元数据)是“关于数据的数据”;主要目标是提供数据资源的全面指南。

元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。

 

2.元数据和数据仓库的关系

元数据是数据仓库实现和管理的灵魂,是联系数据仓库中各部分的纽带。

数据仓库是一种面向决策主题、由多数据源集成、拥有当前及历史总结数据、以读为主的数据库系统,其目的是支持决策。数据仓库要根据决策的需要收集来自企业内外的有关数据,并加以适当的组织处理,使其能有效地为决策过程提供信息。数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。

元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。

 

3.元数据的分类

从用户的角度可以把元数据的内容分为技术元数据和业务元数据。

技术元数据,由数据库管理员、数据库设计者和程序员使用,是关于数据仓库系统技术细节的元数据。主要包括以下方面:

(1)可操作的数据库、数据仓库和数据集市的模式。可操作的数据库系统模式是异构的,有面向记录的、面向文件的、关系的、面向对象的、多层次的和网状的等模式。而相反的,在数据仓库和数据集市中,模式是一致的、协调的,或是关系型的或是多维的模式。

(2)不同的操作数据派、数据仓库和数据集市之间在物理和实现级上的映射和依赖关系的描述,包括从不同的数据源到数据仓库的抽取、清洗、转换过程的信息。

(3)管理目的的元数据,包含了为了协调性能的系统统计(CPU和I/O的需求,……),数据刷新,数据清除和存档的相关信息等。

业务元数据,由业务经理和业务分析员等使用,帮助业务用户理解数据含义和支持面向业务的数据分析。主要包括以下方面:

(1)企业概念模型,定义了主要的业务信息对象、对象间的关系、整体约束(业务规则)等。

(2)业务术语,描述了终端用户熟悉的、定义一致的企业模型。

(3)业务术语与数据仓库或数据集市之间的映射信息,便于面向业务的数据存取,如用业务数据来代替专业的查询语言SQL。

(4)对预定义查询、报表和数据立方体的理解,与此相关的元数据还有数据负贵人、数据所有者、创建时间、更新频率、相应的主题和业务领域等。

(5)数据挖掘,由于业务元数据通常明确地描述了语义关联和专有的业务概念层次关系,因此,基于元数据的假设、生成和结果过滤可以支持数据挖掘。

 

4.元数据的生命周期:

在数据仓库系统中,元数据的生命周期可分为三个基本阶段:收集、维护和配备。这三个阶段相互促进,使元数据在数据仓库环境中发挥重要作用。

元数据收集阶段的任务是识别元数据并将其收入元数据库中。在适当时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。要达到较高的准确性,元数据的收集必须尽可能自动化。但由于对数据仓库游泳的元数据包含各种不同类型的内容,从物理结构数据到逻辑结构数据,再到企业的使用情况和业务规则。这些类型中的每一类都有自己的元数据手机策略,有的可以在某种程度上自动化,有的则要人工来完成。

在维护阶段,元数据必须紧跟实际情况的变化。

在配备阶段,是向用户提供形式适当的元数据和适用的工具,这是在收集和维护元数据中所付出的的代价就要形成成果的阶段。在数据仓库环境中,不同的用户在使用内容和方法上存在较大差异,因此应为不同用户配备不同形式的元数据。成功配备元数据的关键之一在于正确地使元数据与每一类用户的特定需求相匹配。

 

5.元数据列举

基于应用,可以将元数据分成以下的若干种。

数据结构:数据集的名称、关系、字段、约束等;

数据部署:数据集的物理位置;

数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;

质量度量:数据集上可以计算的度量;

度量逻辑关系:数据集度量之间的逻辑运算关系;

ETL过程:过程运行的顺序,并行、串行;

数据集快照:一个时间点上,数据在所有数据集上的分布情况;

星型模式元数据:事实表、维度、属性、层次等;

报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;

数据访问日志:哪些数据何时被何人访问;

质量稽核日志:何时、何度量被稽核,其结果;

数据装载日志:哪些数据何时被何人装载;

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值