数据治理--元数据(高校版)

以“元”为始--浅谈元数据管理实践

在高校信息化建设过程中,系统和设备的生产厂商不尽相同,系统之间没有相互关联。随着系统逐渐建设,其基础数据分布杂乱分散、割裂。不同设备不同系统不断堆砌,管理繁杂,形成了“信息孤岛”数据资源散落在多个业务系统中,数据从生产到使用中间流程不清晰,学校管理人员无法及时感知数据分布与更新情况,无法进行数据可视化及全局数据查看。

难点和现状

由此带来了数据管理上的不便

维护数据困难难以顺势而变。当业务应用场景出现数据问题的时候,需要由故障现状找到错误数据,由错误数据通过技术手段找到其底层逻辑,在经过一番“顺藤摸瓜”之后才能锁定故障源。这样的工作重复而繁琐,难以形成积累,一旦底层发生变动其故障判断口径也会失效,需要重新摸索。

全局掌控不足,盲人摸象。每当进行工作规划或者汇报的时候,会因为掌握信息的时效性对现有的建设情况模糊不清,不知道系统有几个已建设,几个待建设,几个已废弃,在资源上面带来了浪费。更严重的是,通过模糊的信息对建设的规划工作无法从全盘出发,容易走弯路或者没发现其中的风险,带来整体信息化建设的延缓。

数据难以理解,难以产生价值。很多时候信息中心从各业务系统采集到足够的数据信息,但其缺乏业务说明,而且因命名标准不一难以理解其业务含义,直接带来使用上的不便。通过查看具体数据后只能知其然而不知其所然。难以由此产生数据价值。

数据类型多样,零散分布,难以有机结合。高校的数据来源多种数据类型,包括传统数据库信息,线下数据,半结构化数据等。各种数据散落到各业务系统,难以形成有效的关联。而且因为历史原因,有些数据关系和接口信息维护已经缺失,根本无法找到对应关系。如此千头万绪,难以抽丝剥茧。

产品介绍

为解决以上的数据管理问题,我们通过元数据管理工具进行统一。这需要有以下功能进行协助:

元数据采集:提供从传统数据库、ETL工具、excel等类型数据实现元数据自动化采集能力,能通过采集规则进行过滤采集信息。

元数据总览:基于元数据统计各业务部门的元数据情况,包括变更情况、分布统计等内容。

元模型管理:提供元模型的设计、管理、导入导出功能,用于查看和维护元数据库中的元模型,对元模型进行升级,或者自定义扩展元模型等。

元数据变更分析:提供各类元数据的修改、变更和其他基础维护能力,能够形成版本管理,分析每个版本之间的差异。

血缘分析:能基于ETL集成工具和数据模型关联自动生成血缘分析,能追溯到关联的表和字段。通过数据间的血缘关系的可视化分析应用,可查看数据的上下游关系,方便进行分析判断、问题定位。

数据地图:按数据全生命周期进行展示,展示从源、数仓到应用的全链路关系

数据字典管理:能够基于系统、部门和数据库维度展示其数据字典,能够基于平台维护其业务信息,增强业务理解。

具体实施

在实际工作中,我们以全域采集为工作中心,把数据基于数据中心进行分类管理。按全生命周期进行拆分,分为:调研、采集、整合和运维。在这过程中,元数据作为统一管理业务系统和数据中心数据资产的核心点,连通业务部门和信息中心的纽带。管理范围包括:技术元数据、业务元数据和管理元数据。技术元数据即为常见的实体表,数据字典等信息;业务元数据即为一些涉及报表的业务指标,业务标准内容;管理元数据即为对高校内部人员、组织架构信息等。

元数据调研阶段

在这个阶段中,需要对现有高校的数据资产情况进行统筹,了解高校的具体系统的运行情况,收集每个系统在整个高校中占据的地位和效能。通过这部分的梳理,可以制定梳理系统的优先顺序。以某一两个系统为梳理切入点进行定点梳理。除了对整体进行梳理工作安排,还需要实现的准备工作包括:梳理系统信息的调研收集、新增数据库访问用户权限、网络权限的开通等。在这个阶段,调研收集是工作的重心。一般情况下会有以下内容收集:

  • 系统运行在什么数据库环境下?系统对应的数据表有多少个?(范围确认)

  • 系统目前能通过什么途径/方法可以筛选出核心的表?(业务确认)

  • 是否拥有一个独立的数据管控组织,负责对数据资产进行维护?(组织架构)

  • 系统内部之间的数据流关系是怎样的?是否都具备文档或者数据模型说明?(数据交换)

  • 数据流关系展示下钻到什么程度?是否需要到字段级别?(数据地图展示)

元数据采集阶段

在这个阶段的工作重心是对高校资产数据进行统一采集,并形成相应的核心表记录。核心表包括了主数据和参考数据两部分,主数据是高校“黄金数据”,参考数据能够提供业务部门进行数据分析。通过对核心表的梳理,可以进一步细化梳理核心字段。这部分的工作关键在于跟业务部门的沟通,通过双方合作,完成治理工作。如此在采集的过程中,通过关联业务条件过滤,从源头上进行数据质量提升,做好事前预防工作。

阶段难点在于对系统的梳理涉及较多文档梳理和多方系统的接入,需要规范化文档管理和梳理内容的整理。可以按需采用excel文档记录、数据库关联分析等方法来推动工作快速开展。

元数据整合阶段

在这个阶段,工作的重心在于梳理表与表之间的关联,系统与系统之间的关联梳理。这部分的工作除了业务部门一起参与协助外,需要梳理大量的接口文档内容,包括非规范性文档和信息。通过这部分的工作,需要达到对高校整体资产数据的统一管理,形成数据之间的数据流向记录,起到对业务工作的核心支撑。

其工作难点在于治理工作的数据收集和确认,都需要逐步在工作中完成,需要根据实际系统业务需求不断进行修正。

元数据运维阶段

为了维护元数据的完整,建立权威性,其整理好的元数据信息需要建立完善的运维机制。当业务系统有业务变更需求,需要修改、新增、删除数据库表时,这时业务系统需在元数据管理平台提交变更申请,申请被通过后才能在业务系统生产库上执行。如:增加表、修改表的脚本。在执行完该脚本后,应立即使用元数据管理平台对应采集一次库表元数据,将新增的库表采集到元数据管理平台上进行管理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值