1.元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。用于打破业务和IT之间的语言障碍,帮助业务更好的理解数据。
比如,户口本中的元数据。户口本中除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等。这些信息就是描述一个人的元数据,通过户口本中的元数据,我们不仅能够了解一个人的基本信息,还能够了解其家庭关系。
2.元数据与数据的不同之处在于:元数据描述的不是特定的实例或记录,IT部门和业务部门都需要高质量的元数据来理解现有数据;元数据是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。
元数据的解释
知识类型 | 定义 | 技术示例 | 业务示例 |
who | 谁 | 谁负责数据接口的开发 | 谁是财务域、业务域的负责人 |
what | 干什么或是什么 | CRM和DW之间的数据血缘关系是什么 | 企业市场管理业务域的指标体系包含哪些指标 |
when | 什么时候 | 提取、转换和加载(ETL)作业什么时候运行 | 我现在分析的数据上次刷新是什么时候 |
where | 在哪里 | 所有类型的销售订单分别存储在哪个系统的哪些数据表中 | 在哪里可以找到按营销活动显示我们的社交媒体分析的报告 |
how | 怎么样、怎么做 | 如何设置数据质量的管理规则 | 如何获得产品竞争优势 |
why | 为什么 | 出现数据质量问题的根本原因是什么 | 为什么老客户会不断流失 |
表格来源:元数据详解 - 苦行者的刀 - 博客园(cnblogs.com)
3.按照不同应用领域或功能,元数据一般大致可分为三类:业务元数据、技术元数据和操作元数据。
业务元数据描述数据的业务含义、业务规则等。明确业务元数据可以让人们更容易理解和使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。
常见的业务元数据有:业务定义、业务术语解释等;业务指标名称、计算口径、衍生指标等;业务引擎的规则、数据质量检测规则、数据挖掘算法等;数据的安全或敏感级别等。
技术元数据是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据厘清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
常见的技术元数据有:物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;数据存储类型、位置、数据存储文件格式或数据压缩类型等;字段级血缘关系、SQL脚本信息、ETL信息、接口程序等;调度依赖关系、进度和数据更新频率等。
操作元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。
常见的操作元数据有:数据所有者、使用者等;数据的访问方式、访问时间、访问限制等;数据访问权限、组和角色等;数据处理作业的结果、系统执行日志等;数据备份、归档人、归档时间等。