DW2.0下一代数据仓库架构_第4章 DW2.0中的元数据(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。
    DW2.0架构中必不可少的组成部分之一是元数据。在第一代数据仓库中不提供或者后来才想到使用元数据,而在DW2.0中,元数据是数据
仓库的基石。很多原因使得元数据变得如此重要。首先,元数据对于开发者来说很重要,他们必须将自己的努力与之前所作的工作联系起来
第二,元数据对技术维护员来说很重要,因为他们必须处理日常问题以确保数据仓库有序工作。三,元数据对于终端用户来说可能是最重要
引文终端用户需要找到都有哪些可能用于新的分析。元数据允许分析人员查看其组织结构,并掌握已经完成了什么分析。

数据和分析的可复用性
    终端用户置身事外,但对信息存在需求,他们在想办法得到这些分析数据而元数据就成为其求助的对象。元数据使分析人员能够确定
那些信息是可用的。一旦分析人员确定了数据最可能的来源,便开始访问数据。没有元数据,分析人员很难识别数据的可能来源,元数据为
他们省去了很多不必要的工作。同时,终端用户可以利用元数据来判断是否已经完成了某一分析。

DW2.0中的元数据
    元数据在DW2.0中起着特殊的作用。DW2.0中的每一个区都有各自的元数据,其中包括交互区元数据、整合区元数据、近线区元数据和
归档区元数据。其中归档元数据不同于其他元数据。归档区元数据置于归档数据中,以确保元数据不会跟其所描述的基础数据分离或丢失。
    DW2.0中有通用的元数据结构,实际上,有两种并行的元数据架构,分别用于结构化环境和非结构化中。
    对于非结构化数据而言,有两种类型的元数据--企业型和本地型。企业元数据被认为是通用元数据。本地元数据被认为是专项元数据。
    对于结构化数据有三个层级:企业级,本地级,业务和技术级,这些不同类型的元数据之间有着非常重要的联系。
    本地元数据存在于ETL处理、DBMS字典以及BI等工具中,这种工具对描述和其直接相关的元数据非常有用。
    企业元数据存储在对DW2.0环境下的所有工具和过程来说都很重要的本地当中。企业元数据一起形成知识库。实际上,除了归档区之外,
所有区域都将他们的元数据存储在知识库中。

主动知识库/被动知识库
    主动知识库元数据随着系统的发展和查询活动的变化不断地进行交互。被动知识库元数据不能直接随系统的发展和查询活动变化而不断
进行交互。不推荐使用被动知识库,因为终端用户和开发者的活动是独立于元数据知识库的。因为大部分的机构都会尽可能地减少工作量,
降低开支并尽快完成任务,所以任何可选择的工作都将无法完成。被动元数据知识库像程序说明书一样,经验丰富的开发者会省去这项工作
主动知识库用来放置企业元数据,元数据在开发和数据查询中经常被用到。使用元数据进行的开发和数据查询与元数据知识库密不可分。

企业元数据
    企业元数据和本地元数据之间有很多不同的关联。
    1、语义关联。企业为公司定义了一个全局术语,之后描述了术语的本地使用,并用指针指向可以在其中找到术语使用的本地系统。假如
三个本地系统与企业术语“收益”相关,三个本地系统中的术语分别是“收益”,“金钱”,“资金”。这三个不同的词汇在这个例子中代
表了相同的意思。企业元数据能够让企业很好地了解这些同义词术语。
    2、另一个非常重要的数据关联经常出现在企业对象域定义中。假设有一个对象域“顾客”,其定义在企业层。在本地层可以找到关于
顾客的不同信息。在第一个本地系统中存有顾客的姓名及地址信息,第二个本地系统中存有关于顾客年龄和购买偏好的信息,第三个本地
系统中掌握顾客收入、学历、社会保险号等。企业元数据层可用于确定本地系统在哪里存储了对主要业务对象的支持数据。
    3、原属于可以用于为企业的数据对象和数据属性定义记录系统。在记录系统中,每个数据的最终来源是明确的。对于企业中的主要对象
的多种数据属性而言,有多个记录系统是正常的。数据定义和本地元数据层与企业元数据层间的关联定义之间存在重叠的部分,但他们之间
也存在差异。
    在DW2.0中海油一种元数据关系同样重要。业务元数据和技术员数据。业务元数据用业务人员的行话来说,是指对数据的业务描述。技术

元数据是指对数据的技术描述。
    DW2.0中非结构化数据有属于自己的元数据。非结构化环境的元数据与结构化环境元数据有很大差别。
    1、分类,简单说,分类是对一个大主题的一种细分,通常会包含对一个给定主题组件的详细分解。词汇表和本体论都与分类有关。非结
       构化环境下存在两种基本的分类,内部分类和外部分类。内部分类仅仅由文本中的单词和短语组成。内部分类是对非结构化数据文本
       中的主要对象域的一种声明。有时内部分类被称为主题。外部分类来源很广,外部分类有时就产生于真实的环境。外部分类与一个
       非结构化数据实体可能存在关系也可能没有任何关系。

内部分类/外部分类
    非结构化元数据有很多不同的形式。其中一些类型的元数据是非结构化环境中比较普遍的
    1、无用词--一些在说话中用到但是对文本的意义不重要的词。
    2、同义词--意思一样但是有不同拼写的词
    3、同形词--拼写相同但是意思不一样的词
    4、可互换的拼写--同一个单词的多种可以接受的拼写

归档区元数据
    对归档区元数据会有一些异常情况。在归档区中,与归档过程相关的元数据存储在归档数据本身中。之所以将他们放在一起,是因为
如果将元数据与其相关的归档数据并排相放,那么随着时间推移元数据会丢失。当然,归档环境也可以存储独立的元数据集。但是对历史数
据的查询最频繁并且也最可能有用的第一存储地点是归档数据本身。

维护元数据
    元数据面临的一个重大挑战不是元数据环境最初的创建,而是对远水环境的持续维护。当一个变化发生时,主动元数据环境比被动元数
据更易适应改变。在被动元数据环境下,改变很容易被忽视。一个变化发生以及由此导致的一系列改变在被动元数据环境下会产生延迟。
主动元数据知识库有规律地显示出变化以便对现有系统进行正常的更新和维护,当系统发生变化时,元数据也必然随之改变。
    使用元数据与存储及定期更新远水一样重要。尽管使用元数据有很多种方式,但利用终端用户交互式处理的用户接口也许是最有效方法

终端用户的观点
    在DW2.0中,元数据的用户很广。元数据为不同区的数据提供交互服务,他扮演的角色既像环境的文档,又像为DW2.0环境添加数据的
线路图,不过它最重要的作用在于为DW2.0中的数据内容及关联提供指导。
    终端用户对DW2.0中的数据和关联需要指导。在DW2.0环境下,如果终端用户得到了已经存在的那些数据的指导信息,那么他就有可能
重用这些数据。终端用户看不到已经完成的那些分析工作,所有工作必须从头开始。
    在多数情况下,每次分析都要从头开始简直就是多此一举。运用元数据就不需要这个多于的步骤了。分析员可以在已有分析上进行。
    在业务用户看来,元数据还可以用于显示数据的集成。在很多情况下,分析员将一个数据单元看做分析工作的一部分,而业务用户需要
知道收的来源以及数据是如何计算出来的。在DW2.0中,元数据能够提供这种重要的功能。
    从业务用户的角度看,有时存在着对数据的一致性需求。元数据对审核跟踪提供了关键部分,而这对分析环境一致性至关重要。

总结:
    元数据是数据重用性和分析的关键。分析员通过元数据能够知道哪些工作已经完成。
    元数据有四个层次:
    企业、本地、业务、技术
    元数据既可以用于结构化环境,也可以用于非结构化环境中。元数据知识库分为主动和被动两种,主动元数据知识库比被动元数据知识
库更有用,在开发和分析阶段交互使用的元数据知识库被称为主动知识库。
    元数据知识库完整地定义了数据仓库记录系统。
    非结构化元数据由分类,词汇表,本体组成。元数据从形式上分为内部元数据和外部元数据。
    归档元数据直接存储在归档区。通过将元数据与其描述的归档数据都存储在相同的物理存储上,就可以创建一个数据的时间封闭仓库。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1318754/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1318754/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值