元数据管理:组织数据资产的“导航仪”与“说明书”

一、什么是元数据?从“户口本”到“地图”的比喻

元数据的经典定义是“描述数据的数据”,但如何让业务人员快速理解?简单来说,就是描述某个数据本身特征的数据。而这些特征,我们一般称之为属性,一般包括技术属性、业务属性和管理属性。类比生活中的场景,可以通俗地理解元数据:

户口本:记录了个人的姓名、年龄、血型、亲属关系等个人相关数据信息,也记录了该户口本生成的时间、数据来源于哪个派出所等信息。户口本作为这些信息的载体,它为数据提供了最基本的身份标识和描述。户口本就像一个系统的数据库一样,记录了个人数据信息的名称、长度、是否为空、这个数据信息的含义等;也记录了户口本各类数据的来源和记录时间,甚至于管理单位。户口本存储了数据的基本信息。

地图:地图则为数据的使用和探索提供了方向和路径。地图通过标注地理信息,帮助人们在复杂的环境中找到目标位置,规划最优路线。同样,元数据如同数据的地图,标识了数据的存储位置、分布地址、关联信息等,描述了不同数据表之间的关系,如主键和外键的关联、数据表的层级结构等。这些信息就像地图上的道路和地标在数据世界中也起到了类似地图的作用,帮助组织快速定位和溯源。

元数据不仅描述了数据本身的信息,还描述了数据之间的关系、表达的意义、管理的方式等信息。因此,为了管理和使用的便捷性,按场景一般把元数据分为三类:业务元数据、技术元数据、管理元数据。(也有操作元数据一说,根据具体场景,灵活定义和设计即可)

图片

业务元数据:主要由业务人员牵引,定义数据的业务含义(如业务口径、业务规则、质量要求、分类要求等);

技术元数据:主要为技术用户(如数据工程师、分析师)提供数据相关的技术细节,包括表名、字段类型、长度、物理表的存储位置和存储信息、数据结构、接口定义、ETL规则/流程/性能参数、数据模型等数据。

管理元数据(操作元数据):主要用于满足IT运维和管理人员的需求,提供数据的操作历史(加工、存档、技术处理、权限控制)、状态(数据生命周期信息)、数据质量问题记录、访问日志、和管理信息(管理者的组织、岗位、职责、数据版本)。

二、为什么需要元数据管理?

元数据是关于数据的数据,它提供了数据的描述、结构、来源、用途、质量等信息。元数据可以帮助使用者快速的找到所需要的数据,也能帮助其快速理解数据表达的含义、数据的结构和用途,同时对数据管理者来说,明晰掌握数据资产的条目、业务类型以及数据的冷热度等;对于数据治理来说,通过对元数据的了解,能够通过数据关系,快速定位数据质量问题等。

图片

因此,通过元数据至少可以解决如下的问题:

1. 解决数据“三不”难题

找不到:通过元数据目录,借助“元数据搜索引擎”实现关键词、标签等多为辅搜索,可快速实现元数据的查找。

读不懂:企业内部可能存在多种数据源和数据格式,元数据可以提供统一的数据语言(业务元数据),例如“收入”是否是净收入、统计周期如何定义等,帮助不同部门和人员理解数据的含义,减少误解和沟通成本。

不可信:技术元数据记录数据血缘,从字段级追踪数据从源头到应用的完整链路,可通过可视化/图谱的方式展示上下游关系,迅速定位数据字段,并为数据质量的发现提供定位依据,识别加工和使用过程中的潜在风险,并为低质量数据带来的影响提供分析依据。

2. 支撑数据治理以及数据合规

元数据管理是数据治理的基石,元数据可以记录数据的质量信息,如数据的准确性、完整性、一致性等。数据治理人员可以通过元数据监控数据质量,及时发现和解决数据质量问题,确保数据的高质量输出;通过数据血缘分析可快速定位数据质量问题的影响范围,辅助GDPR等合规审计。

3. 驱动数据资产化

组织的数据通常以碎片化形态分布,彼此孤立,很难弄清楚现有数据资产的分布、类型、数量等。元数据管理可以实现数据资产的完整呈现,并以数据目录的方式展现出来,便于管理者一步到位了解数据资产情况、数据使用情况等,减少重复数据开发。

三、四步:落地元数据管理项目实施

元数据管理项目的实施,从项目组的建设、制定规范到元数据的应用,至少需要四步。

图片

第一步:制定元数据管控体系。重点是明确目标、建立团队、制定规范

明确目标:明确本次项目的目标、范围、成果等。

建立团队:组建由项目管理团队牵头,数据管理/IT部门以及相关业务单元配合的数据治理团队,明确各自分工、参与人数等。

制定规范:制定元数据管理的规范和流程。元数据管理规范通常包括元数据的定义和覆盖范围、元数据的标准、元数据全生命周期的管理/处理方式、元数据质量控制规则、元数据存储结构和位置以及检机制索、元数据使用和共享方式和条件等。

第二步:元数据摸排、元数据标准定义和制定

元数据摸排:按照“自下而上”及“自上而下”的方法,从数据字典以及业务流程两个维度入手,建立元数据模型,包括业务对象、对象属性以及对象之间的关系,并梳理本次项目范围覆盖的各业务系统的元数据,包括系统名称、数据库、数据表、字段信息、业务管理单元、数据更新频次等信息,并形成清单。

元数据标准定义与制定:基于元数据摸排的成果,对元数据标准进行定义,并制定。元数据标准的定义一般是业务元数据、技术元数据和管理元数据,根据项目情况,可以设置其他类型的元数据,比如基础元数据,主要描述标准分类编号以及安全等级等(分类分级使用)。

第三步:元数据管理技术方案设计及实施。方案设计重在元数据采集

元数据采集:根据元数据类型和来源,选择采集方式,一般有手工填报、数据库采集(主动采集和被动采集)等方式。并由开发实施人员在元数据管理系统中配置元数据采集任务,实现元数据采集到目标库(数据库的选择依据项目目标制定,若为了后续数据高效使用,则选择高效数据引擎【实时、非实时等】;若为了数据分析等,可选择数据仓库平台,如Hadoop生态等;也有商用数据库可选择。)。

元数据清洗:根据元数据标准的要求,制定数据清洗规则,包括量纲统一、特殊字符剔除、数据抽取与合并、数据格式规范化、数据归一化处理、去除重复数据或无效数据等。并将清洗规则配置到系统中,可以是定时任务,也可以是脚本。

第四步:元数据质量检查及应用

元数据质量检查:根据PDCA方法论,对清洗转换后的元数据进行质量检查,检查方法一般是采用自动化工具,将转换后数据结构与标准进行比对,并给出质量检查报告。该部分工作结合数据质量标准指标给出相应的评价报告。数据治理运营人员根据检查报告进行溯源排查修正,实现常态化业务闭环管理。

元数据应用:通过数据目录、数据地图等形式展现元数据资产,提供数据资产全景视图。通过数据血缘,描述数据间依赖关系,便于追踪数据质量问题和错误数据影响性分析等。

四、元数据管理的未来:从“被动管理”到“主动赋能”

随着AI技术的渗透,元数据管理正走向智能化。传统的元数据管理工作,主要是用采集工具集中采集企业中各个系统中的元数据,并集中进行存储、治理、分析和利用。目前的趋势是数据采集“由被动化主动”,通过主动元数据采集工具,自动采集各类元数据并将元数据解析、打标等处理之后推送到目标地点,进行元数据分析、数据质量监控等下一步操作。

图片

被动元数据管理:高度依赖人力,不涉及复杂的逻辑处理或动态分析,不适用于数据密集型企业、数据不断产生、存储、流转、开发消费的企业;且限制了数据治理、数据分析和数据决策方面的应用。

主动元数据管理:高度集成了规则、人工智能相关技术,可以采用实时、自动化的方式采集各类元数据,并在高密集实时数据消费场景有较好的应用场景,主要应用于数据探查、数据质量监测、数据影响性分析等数据高效运转的场景。

结尾的话

元数据作为数据管理的基石,为组织能更好地管理和利用数据资产提供了坚实的基础。通过推动元数据治理工作,能有效推动组织内部的数据共享与协作、满足合规要求、优化数据分析以及支持决策制定等。

本文来自公众号:数据那些事

更多数据治理相关内容请访问数据治理博客园 | 巨人肩膀

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值