元数据管理
概述
元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。
元数据在构建数仓过程中,定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
元数据类型
1.业务元数据
业务元数据指从业务角度描述业务领域相关的概念、关系和规则的数据,包括业务术语和业务规则等信息。
2.技术元数据
技术元数据指描述系统中技术细节相关的概念、关系和规则的数据,包括对数据结构、数据处理方面的描述,以及数据仓库、ETL、前端展现等技术细节方面的信息。
技术元数据又细分为:
数据源元数据
ETL元数据
数据仓库元数据
BI元数据
3.管理元数据
管理元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。
元数据获取途径
外部数据源
主要有源系统、ETL工具、报表工具的元数据
数据仓库
数据库物理模型的元数据
手工补录
主要有Mapping文档、任务配置、业务规则、业务术语、业务人员手工补录的数据,大多数是规则明确的业务数据
元数据功能
血缘分析: 向上追溯元数据对象的数据来源。
影响分析:向下追溯元数据对象对下游的影响。
同步检查: 检查源表到目标表的数据结构是否发生变更。
指标一致性分析: 定期分析指标定义是否和实际情况一致。
实体关联查询: 事实表与维度表的代理键自动关联
元数据应用
ETL自动化管理: 使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。