数据整合与BI应用的元数据标准化

  数据是各类信息化应用的核心,如何有效的利用数据,提供由价值的信息、促进共享是目前信息化应用的关键目标之一。在这种情况下,描述并有效利用各类息的元数据就变得更加重要,成为管理和应用各类信息资源的有效手段。因此,在数据整合与BI应用项目中,应科学地、规范地建立一套规范化的元数据标准。

正是有了元数据,才使得数据整合与BI应用的最终用户可以随心所欲地使用数据仓库(数据整合与BI应用的载体),利用数据仓库进行各种管理决策模式的探讨。元数据是数据整合与BI应用项目的灵魂,可以说没有元数据就没有数据整合与BI应用。

  1. 元数据的一般概念

  元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。

 (1)元数据是什么?

  数据的数据 (data about data)

  结构化数据 (Structured data about data)

  用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的 所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;

  资源的信息 (Information about a resource)

  编目信息 (Cataloguing information)

  管理、控制信息(Administrative information)

  是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )

  data that defines and describes other data (ISO/IEC 11179-3:2003(E))

  传统的书目数据、产品目录、人事档案等都是元数据。元数据可以为各种形态的信息资 源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系提供整合的工具与纽带。离开元数据的数据整合与BI应用项目将是一盘散沙,无法提供有效的检索、处理和应对需求的变化。

 (2)元数据与数据的关系

  元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的 URL 地址。元数据可以出现在:

  数据内部;

  独立于数据;

  伴随着数据;

  与数据包裹在一起。

 (3) 元数据(metadata)概念提出的背景

“书目”作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。“元数据”作为一个统一概念的提出首先起因于对电子资源管理的需要。因特网的爆炸式的发展,使人们一时难以准确地找到自己所需的信息,人们就试图模仿图书馆对图书进行管理的方式,对网页进行编目。坦白地说在这方面至今仍然成效不大,甚至可以说是失败的。但对元数据的研究和应用使人们看到了新的可能性,元数据可以成为下一代万维网——“语义万维网(Semantic Web)” 的基石,通过表达语义的元数据,以及表达结构、关系和逻辑的   XML/XMLS/RDF/RDFS/OWL 等形式化描述,计算机能够对于数据所负载的语义进行理解和处理,从而赋予因特网以全球的智慧和惊人的能力。

 (4) 元数据能解决什么问题?

  描述(description)

  资源发现 (resources discovery)

  认证(authentication)

  互操作(interoperability)

  数据管理(data management)

  访问控制(rights management)

  数字化保藏(digital preservation)

  内容分级(content rating services)

  2. 数据整合与BI应用项目中的元数据

  在数据整合与BI应用中,元数据用于构造、维持、管理、和使用数据仓库。元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。  

  在数据整合与BI应用中,元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。

在数据库中,元数据是对数据库中各个对象的描述。关系数据库中,这种描述就是对表、列、数据库、观点和其他对象的定义。

  从广义上讲,元数据代表定义数据仓库的任何对象,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。

  3. 元数据的基本功能

 (1)识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识别被组织的资源对象。

 (2)定位。提供信息资源位置的信息,以便用户访问时使用。

 (3)检索。通过在描述数据中提供检索点,便于用户对资源的检索和利用。

 (4)选择。通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。

在数据整合与BI应用中,元数据机制主要支持以下五类系统管理功能:

 (1)描述哪些数据在数据仓库中;

 (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

 (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

 (4)记录并检测系统数据一致性的要求和执行情况;

 (5)衡量数据质量。

  4. 元数据的类型

 (1)按元数据的类型分类

  关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。

  用于数据处理的元数据          

  关于企业的组织结构的元数据

 (2)按对象级别分类

  概念级              

  逻辑级            

  物理级

 (3)从用户的角度分类

  通常把元数据分为技术元数据(Technical Metadata)、业务元数据(Business Metadata)和数据仓库操作型信息。

  ① 技术元数据

包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。

  数据源信息:

  转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)

  目标数据的仓库对象和数据结构、数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容

  数据清洗和数据增加的规则

  数据映射操作

  汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询与报告

  访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

  ② 业务元数据

  业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法及公式和报表的信息。主要包括:

  企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

  多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

  业务概念模型和物理数据之间的依赖关系:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

  支持面向业务概念的浏览、导航

  支持动态立即查询(Ad hoc)

  数据挖掘

  支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 

  ③ 数据仓库操作型信息

  例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

(4)从来源的角度分类

  工具产生的元数据  

  源提供的元数据

  企业模型

  系统导入的元数据  

  特定的用户产生的元数据

 (5)从元数据的目的角度分类

  一般可以通过一种更粗的方法来区分元数据:

  用于信息的元数据          

  用于控制的元数据

 (6)按照产生/使用的时间分类

  根据获取或生成的时间,可以分为:

  设计时收集的元数据

  构建时生成的元数据

  l 运行时生成的元数据

  根据使用的时间,可以分为:

  l 设计时使用的元数据

  l 构建使使用的元数据

  l 运行时使用的元数据

  5 元数据的作用

  从元数据的类型和作用来看,元数据实际上是要解决何人在何时、何地为了什么原因及怎样使用数据仓库的问题。再具体化一点,元数据在数据仓库管理员的眼中是数据仓库中的包含了所有内容和过程的完整知识库和文档,而在最终用户(即数据分析人员)眼中,元数据则是数据仓库的信息地图。

  数据分析员为了能有效地使用数据仓库环境,往往需要元数据的帮助。尤其是在数据分析员进行信息分析处理时,他们首先需要去查看元数据。元数据还涉及到数据从操作型环境到数据仓库环境中的映射。当数据从操作型环境进入数据仓库环境时,数据要经历一系列重大的转变,包含了数据的转化、过滤、汇总和结构改变等过程。数据仓库的元数据要能够及时跟踪这些转变,当数据分析员需要就数据的变化从数据仓库环境追溯到操作型环境中时,就要利用元数据来追踪这种转变。另外,由于数据仓库中的数据会存在很长一段时间,其间数据仓库往往可能会改变数据的结构。随着时间的流逝来跟踪数据结构的变化,是元数据另一个常见的使用功能。

  元数据描述了数据的结构、内容、链和索引等项内容。在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中的数据字典就是一种元数据。在关系数据库中,这种描述就是对数据库、表、列、观点和其他对象的定义;但在数据仓库中,元数据定义了数据仓库中的许多对象——表、列、查询、商业规则及数据仓库内部的数据转移。元数据是数据仓库的重要构件,是数据仓库的指示图。元数据在数据源抽取、数据仓库开发、商务分析、数据仓库服务和数据求精与重构工程等过程都有重要的作用。因此,设计一个描述能力强并且内容完善的元数据,对数据仓库进行有效地开发和管理具有决定性意义。

  更进一步,元数据是保障从各业务系统间数据整合工作顺利完成的重要手段和依据,是保证数据质量的关键,有效的元数据管理可以将不断变化的需求平滑地反映到数据仓库里来。在一个数据整合与BI应用项目中,保证元数据的统一、有效和规范的管理是整个项目成功的关键所在。那么在数据整合与BI应用项目过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在在数据整合与BI应用项目过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?元数据的管理应当是在数据整合与BI应用项目过程中要全程关注的焦点和核心;根据以往的经验,总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是在数据整合与BI应用项目在中国处于初级阶段的一个表现吧? ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,那么有没有可能把整个过程中每个阶段的元数据加以集中存储并有效管理?只有好的工具或者解决办法,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值