怎么理解数据仓库中的元数据

在讨论组里看到很多同行,朋友和DW爱好者们讨论元数据,这里本人就元数据的理解和大家分享一下,如有偏差欢迎批评指正。

元数据——“关于数据的数据”这个概念大家都知道了,但是如何理解这个关于数据的数据呢?

从概念上我们可以看出,当我们说元数据时,必须有个参照,就是“关于的那个数据”,即这个概念里面有两个“数据”,我们不能孤立地说某个数据是元数据,只能说某个数据(Data A)是另外某个数据的元数据(Data B),例如,我们说数据库中字段信息是元数据,这是不准确的,应该说字段信息(Data A)是表中数据(Data B)的元数据。那么字段信息是怎么关于Data B的数据呢,字段信息描述了表中实际数据的数据类型,用途等,这些信息就是关于数据的数据。如果脱离了表中数据这个参照对象,字段信息就不能被说成元数据了。比如从数据结构的设计角度来讲,字段信息就是一种数据结构。

同一种数据,是否为元数据,取决于它应用的场景。比如我们在ETL设计过程中,设计一个参数表,用来存放ETL过程中所用到的参数,如果单纯地从这张表里的数据分析,我们很难说这个表的数据是元数据,但是如果在ETL处理过程这个场景下,我们可以非常充分地说这个表里的数据是ETL处理的元数据,ETL处理过程中需要这个表的数据为其提供支持,这个数据就是关于ETL处理的元数据,它不是ETL处理的对象,而是控制ETL处理过程的技术元数据。

元数据在数据仓库过程中十分重要,数据仓库所提供的“统一的企业级的信息视图”能力,主要就是靠元数据来体现。

元数据贯穿整个数据仓库项目,所有数据处理环节必须最大化地参照元数据,这样才能保证数据仓库项目不会因为不断增长的数据多样性而失去秩序,特别是在现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。“信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性,从而大大降低数据仓库后期的维护和运行成本。

数据仓库的元数据包括如下内容:(一下内容摘自Kimball GroupData Warehouse Toolkit

 数据资源:包括各个数据源的模型,描述源数据表字段属性及业务含义,源数据到数据仓库的映射关系。

数据组织:数据仓库、数据集市表的结构、属性及业务含义、多维结构等。

数据应用:查询与报表输出格式描述、OLAP、数据挖掘等的数据模型的信息展现、商业术语。

数据管理:这里包括数据仓库过程,以及数据仓库操作结果的模型,包括描述数据抽取和清洗规则、数据加载控制、临时表结构、用途和使用情况、数据汇总控制。

元数据贯穿整个数据仓库项目,所有数据处理环节必须最大化地参照元数据,这样才能保证数据仓库项目不会因为不断增长的数据多样性而失去秩序,特别是在现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。信息孤岛曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性,从而大大降低数据仓库后期的维护和运行成本。

按照元数据的使用情况和面向对象的不同,可以将元数据分为业务元数据、技术元数据、操作元数据。

1.业务元数据

业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供终端用户使用。业务元数据使最终用户能够更好地理解、使用数据仓库,成为最终用户在数据仓库中的业务信息地图。

业务元数据在系统的数据仓库中的体现是全方位的,例如,最终用户通过浏览元数据可以清晰地了解当前指标代表什么业务、如何计算得出的、以什么为单位等相关描述信息。

2.技术元数据

技术元数据描述了源系统、数据转换、抽取过程、工作流、加载策略,以及目标数据库的定义等。技术元数据可供信息系统人员和一部分最终用户使用,用来进行影响分析、变化管理、数据库优化、任务调度和安全管理等。

OLTP业务系统和数据仓库分析系统之间存在复杂、多方面的区别,因此,数据在业务系统和分析系统之间的处理、加载也是复杂和涉及多方面的。技术元数据对数据在两个系统间处理、加载的规则、过程、相关策略进行了描述。

3.操作元数据

操作元数据描述了目标表中的信息,如粒度、创建目标表和索引的信息、刷新时间、记录数、按时执行任务的设置,以及有权访问数据的用户。操作元数据用于数据仓库的维护和分布。

虽然元数据依据具体应用特点分为业务元数据、技术元数据和操作元数据,但是,在实际应用中以上三类元数据是相互参照和关联的。只有业务、技术、操作之间的协调和互补才能充分发挥数据仓库的潜能,提高数据仓库的利用效率。

另外,很多初次接触Data Warehouse的朋友,可能觉得元数据一定存储在计算机系统里面,比如数据库里面,或项目管理系统里面。其实元数据的存储是不受介质限制的,比如我们再DW/BI项目中使用的很多文档,Matrix Bus mapping doc等,它们可能是一个word文档,或纸质文档,只要它是描述“关于数据的数据”,就属于元数据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值