【精选】数据质量管理实战之——如何开展数据质量评价

   

        数据质量管理作为数据治理环节当中的关键活动,在实际项目执行过程当中一直是被客户关注的重点。针对数据质量的管理和评价,业界有很多规范和参考,包括DAMA、信通院和国标的定义,对于如何开展数据质量管理,网上也有各类的方式,除了理论基础,数据质量还需结合制度体系、工具模板同步推进,因此结合工作实际写这篇文章来阐述数据质量工作在实战中开展的流程内容。

一、数据质量管理工作的开展方式和阶段

        数据质量工作大体上有两个大的阶段,一是数据治理项目前期,在没有基础的条件下如何全面开展数据质量工作,如何通过制度、标准、工具来规范化工作的开展。二是数据治理工作以开展了一段时间,需要阶段性的对数据质量问题进行集中整治和持续提升的工作。两个阶段的区别就是前期是否有对数据质量工作做扎实的规划,如果形成良性的工作机制,那么数据质量工作是可以稳步开展的,若是前期对质量问题疏忽,那么中后期业务量上来之后,质量问题所带来的故障影响会对数据团队整体的工作带来很大压力。

(图一)

二、DAMA数据质量管理体系解读

       数据质量管理,是DAMA数据管理知识体系指南中数据治理领域非常重要的一部分(图2 所示),主要是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 主要分七步:

(图二)

(一)定义高质量数据

        主要包括三种方式:

         1、通过了解业务战略和目标,数据质量管理工作的重心。

         2、与利益相关方面谈,以识别痛点、风险和业务驱动因素。

         3、通过盘点数据资产和数据流通环节评估高质量数据。

(二)定义数据质量战略

         这里指的战略是指结合当前战略方向从业务需求角度,识别关键数据的需求,形成数据质量工作开展需要完成的内容和标准,是各方共同认可的数据质量管理目标,形成数据质量管理理念。

(三)识别关键数据和业务规则

         数据范围太大,需要对数据资产进行盘点,有两种方式:

        1、从业务使用角度出发,对数据资产进行梳理,结合数据来源单位、来源业务系统活跃度、信息类别性质(动态/静态/统计)、数据申请使用单位数、累计数据服务调用指标几个方面综合分析,筛选出关键数据内容。

        2、通过主数据的定义,识别核心业务数据内容,例如:人员、设备、账单等数据对象。

    通过以上两种方式,基本能够确定关键数据内容,从而挑选出关注的业务信息,然后我们需要知道要针对哪些字段进行质量管理,再结合关键业务数据和业务规则,对盘点出的关键数据的字段进行重要度分级,通过数据字段重要程度分级明确下一步需要做数据质量评估的具体对象。

    对于梳理出的关键数据,需要与数据利益相关方进行共同评审,最终确定数据质量管理的阶段性范围。

    (四)执行初始数据质量评估

      数据质量评估的目标是了解数据,以便定义可操作的改进计划。改进计划的制定一般按照一下步骤开展。

        1、定义评估的目标和范围。确定需要对哪些数据进行评估,定义评估范围。

        2、确定要评估的数据。这里可以挑选一些重要的数据字段进行评估。(上面对关键数据字段的重要度分级即是确定要评估的数据)

        3、识别数据的用途和数据的使用者。确定数据的关系人,这里除了业务还是有系统。

        4、定义数据质量评估的指标。数据质量评估的指标主要包括完备性、唯一性、及时性、有效性、准确性、一致性。现行的《GBT 36344-2018 信息技术 数据质量评价指标》也对数据质量评价指标进行了定义,当然网上也有各种不同的指标,具体的指标需要结合业务和数据实际进行设计。

(图三)GBT 36344-2018 信息技术 数据质量评价指标

(图四)DAMA数据质量评价维度

        5、定义数据质量规则。指标的计算是在规则的基础上进行,所以需要在指标的基础上,明确指标下需要有哪些规则来评价数据,这里包括面向表的规则和面向字段的规则,规则分为通用规则和面向业务的规则。

        6、执行数据质量评价。结合工具平台或脚本的方式,对数据质量进行稽核,记录数据质量问题,形成数据质量问题清单。

    (五)确定改进方向并排定优先顺序

     在执行初步数据质量评估中,先从小范围进行开始,在初步评估后,基于一定数据问题的理解,将从较大数据集进行全面的数据分析,以了解初步评估阶段发现的问题涉及的广度。对于数据问题广度的了解,也有助于评估其问题涉及的利益相关方,进一步确定问题的优先级。

    这里需要特别注意的是,剖析数据只是分析数据质量问题的第一步,侧重了解数据的问题,而不直接涉及到问题的跟因分析,只有在确定优先级,对优先级高的数据问题再进一步分析。

    (六)定义数据质量改进目标

    数据质量补救和改进计划应考虑快速实现的问题和长期的战略性变化,不难看出数据治理工作至始至终,在各个专业领域环境都需要充分考虑,如何能够体现工作价值,否则将失去公司高层的绝对支持。

    对于数据质量的提升,除了影响到业务,否则对于数据质量的提升并无直接感知,在设定质量改进目标时,应该将具有更加显性价值的数据目标作为更高优先级,可以根据以下内容确定改进的投资回报率:

        1、受影响的数据关键性(重要性排序)。还是从监管和业务核心竞争力两个方面作为高优先级。

        2、受影响的数据量。往往大面积数据存在的问题,其影响往往对业务并非直接影响(直接影响也将第一时间发现),这个分析可以与第一点相结合,优先解决范围较广的重要性优先级高的数据。

        3、数据龄期:部分数据的价值,会随着时间的推演而下降,在对数据质量进行治理和改进过程中,优先对于高价值的数据进行改进,对于历史悠久价值不高的数据,但治理成本又非常高的数据,可以采取隔离标记的方式,不讲该部分数据的使用做一定的限定。

        4、受问题影响的业务流程数量和类型。

        5、受问题影响的消费者、客户、供应商或员工数量。

        6、与问题相关的风险。

    (七)开发和部署数据质量操作

    前面都是对数据本身的探索,在确定了具体方向后,需要将数据管理转变成为实实在在的工作事项:

        1、管理数据质量规则:数据质量规则来源于对数据的剖析和分析,他不仅仅有助于对数据质量进行测量和跟踪,同时还有以下重要的作用:

  • 对数据质量特征设定明确的期望:知道什么样的数据才是高质量的数据;

  • 提供防止引入数据问题的系统编辑和控制要求:能够有效管理分散在各个环节和团队可能引入的新数据源带来的数据质量问题。

  • 对外部合作伙伴提供明确数据质量要求。

      数据标准作为元数据重要的一种形式,必须进行有效的管理,形成共有的重要知识资产。因此规则需要具有以下特点:

        1)记录的一致性,建立记录规则和标准和模板,使其具有一直的格式和含义。

        2)根据数据质量维度定义。建立公司统一、一致的数据质量评价度量标准。

        3)与业务影响挂钩。数据质量标准和规则,应该与业务挂钩,不应采取与业务流程无关的度量。这点其实相对比较难,对于数据质量在业务流程中的可量化度量设计,往往并非显性。

        4)数据分析支持。数据质量分析人员不应猜测规则,而应更具实际数据测试规则。

        5)由领域专家确认。规则来源于业务,因此必须由业务领域专家确认规则能够正确描述业务。

        6)所有数据消费者都可访问。这点非常重要,能够更大范围发挥规则的价值,同时又能够有助于确保规则的正确和完整。

        2、测量和监控数据质量。

    数据质量测量和监控,应根据数据评估和根因分析的结果制定测量方法,这点也就是数据管理工作中常常忽视的点,往往设计的测量内容都是从纯数据的角度,与业务的关联性相对弱化很多。

    另外数据质量度量侧重于关键数据元素及其关系,测量结果可以分为两个层次进行描述,执行单一规则相关的详细信息和规则汇总的总体结果,可以分为有效数据质量和无效数据质量两种表达方式。

    结果的度量值,应该设定一个结果判断的阈值,例如在什么数量级是可接受的,否则整体不可用。将检测嵌入在数据处理流程当中,也是一种有效对数据质量管理的方式。

        3、制定管理数据问题的操作过程

    发现问题只是一个开始,真正在于问题的修正,所以数据质量结果的及时有效响应是数据质量管理的关键,数据问题的管理操作过程如下:

        1)诊断问题。根据数据质量事件的症状,通过相关数据的血缘,探究数据问题源头。

        2)制定补救方案。根据诊断结果,制定和评估解决问题的方案。

        3)解决问题。将解决问题的程纳入到时间跟踪体系当中,未来可对数据问题解决过程进行跟踪分析,形成体系化的数质量管理体能力。包括

        >标准化数据质量问题和活动:每个表述和形式不同,可以先标准化数据质量问题模板。

        >提供数据问题的分配过程。

        >管理问题升级过程。

        >管理数据质量解决方案工作流

        4、编写数据质量报告

    通过数据质量报告,共享信息让数据消费者了解到数据的状况,数据质量报告应着重于:

        >数据质量评分卡。可以形成数据质量考核的的评价方案,书中提到了数据阈值的差异化报告分层体系。达到什么阈值需要上升到什么层度。

        >数据质量趋势。随时间显示数据质量是怎样被测量的,数据质量趋势是向上还是向下。

        >服务水平协议指标。运营数据质量人员是否及时诊断和响应数据质量事件。

        >数据质量问题管理。监控问题和解决方案的状态。

        >数据质量团队与治理政策的一致性。

        >IT和业务团队对数据质量政策的一致性。

        >改善项目带来的积极影响。

三、如何开展数据质量评价

  STEP1:【评价准备】

    了解业务系统对数据的需求及当前数据存在的具体问题,通过识别关键数据确定数据质量评价目标、范围、优先级,并结合数据优先级制定数据质量评价工作开展计划。

 STEP2:【评价范围】

    对数据资产进行盘点及重要度评分,识别关键数据,明确数据质量评价范围。关键数据的评分维度按照以下五个内容开展:

(一)数据来源部门:总分5分,权重5%,分值定义规则:

(1)数据管理单位(部门):5分;

(2)核心业务来源系统:3分;

(3)外部单位(系统):2分;

(4)其他单位(系统):1分。

(二)来源系统业务系统活跃度:总分5分,权重5%,分值定义规则:

(1)停用:0分;

(2)在用且重点业务系统:5分;

(3)在用且非重点业务系统:3分。

(三)信息类别性质:总分5分,权重20%,分值定义规则:

(1)静态数据:5分;

(2)动态数据:3分;

(3)统计数据:1分。

(四)数据申请单位数:总分5分,权重40%,分值定义规则:

(1)申请单位数量>=10个:5分;

(2)申请单位数量>=5个:4分;

(3)申请单位数量>=3个:3分;

(4)申请单位数量>=1个:2分。

(五)累计调用指标:取100为底数,累计调用次数为真数的对数值,总分5分,权重30%,分值定义规则:

(1)累计调用指标>=3:5分;

(2)累计调用指标>=2:4分;

(3)累计调用指标>=1:3分;

(4)累计调用指标>=0.5:2分;

(5)累计调用指标>=0.1:1分。

STEP3:【重要字段分级】

    根据关键数据识别出的数据表,按照数据影响业务的重要性程度对数据字段进行分级定义,梳理待评价的数据项,数据项重要等级从高到低分别为三级、二级、一级。分级规则如下:

三级字段:业务主键;

二级字段:数值型、日期型、文本类表示的日期字段、短文本类字段(如名称、地址、代码、类型等特征字段),权威数据来源字段;

一级字段:其他类型字段,如不需要共享使用的源系统字段、长文本描述类型字段。

STEP4:【定义评价指标】

    数据质量评价指标划分为:规范性、完整性、准确性、一致性、时效性及唯一性六个维度。

(一)规范性:指的是数据符合数据标准、数据模型、元数据或安全规范的程度。包括命名规范率、元数据规范率、敏感字段脱敏率。

(二)完整性:按照数据规则要求,数据元素被赋予数值的程度。包括字段完整率、数据记录空值率、数据元素空值率。

(三)准确性:指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。包括值域准确率、格式准确率、内容准确率。

(四)一致性:数据与其他特定上下文中使用的数据无矛盾的程度。包括相同数据一致率、关联数据一致率、计量单位一致率。

(五)时效性:数据在时间变化中的正确程度。包括基于时间段的正确性、基于时间点的及时性、时序性。包括记录数及时率。

(六)唯一性:数据在数据集当中的是否存在重复。包括字段重复率、记录数重复率。

STEP5:【规范质量校验规则】

    根据评价内容,结合评价指标,定义数据质量校验规则,数据质量校验规则包括:

(1)命名规范率:数据表的命名不符合命名规范的数量与数据表总数量的比率。

(2)元数据规范率:数据格式不符合元数据所定义规范的比率。

(3)敏感字段脱敏率:未脱敏字段数量与敏感字段数量的比率。

(4)字段完整率:校验数据内容不符合字段完整性的数据记录条数与数据记录总条数的比率。

(5)数据记录空值率:数据记录中存在空值的条数与记录总条数的比率。

(6)数据元素空值率:数据元素空值个数与该元素总数量的比率。

(7)值域准确率:数据的值不在预设的范围内,数据内容不是预期数据的比率。例如人的年龄是否在合理范围内。

(8)格式准确率:字段值的格式不符合格式规范的比率,主要包括编码格式校验,日期、时间格式校验(YYYY-MM、YYYY-MM-DD、YYYY-MM-DD HH:MI:SS),电话格式校验(手机号格式、固定电话格式)等。

(9)内容准确率:结合业务逻辑合理性,校验数据内容不符合的逻辑关系的数据记录条数与记录总条数的比率。

(10)相同数据一致率:同一数据在不同位置存储时的数量一致率。

(11)关联数据一致率:根据一致性约束规则,检查数据元素不符合关联参照数据的比率。

(12)计量单位一致率:同一数据的计量单位在不同数据集当中计量单位一致性的比率。

(13)字段重复率:校验数据列中重复数据与当前列数据总条数的比率。

(14)记录数重复率:校验单条数据记录的重复数量与总记录数的比率。

(15)记录数及时率:校验某一更新周期内数据量是否变化,以此来判断数据的推送是否及时。

STEP6:【定义质量规则权重】

    根据字段的重要程度定义质量规则权重,三级字段权重为3,二级字段权重为2,一级字段权重为1。其中,同一字段的所有规则的权重都相同,如果是多个字段关联的规则取权重低的作为此规则的权重。

STEP7:【实施评价】

    按照数据质量校验规则,采用系统检核与人工检核相结合的方式进行数据质量核检,数据质量的核检方式包括以下:

(一)全量核检

对涉及的所有数据进行逐一核检数据质量。

(二)增量核检

对涉及的数据,在特定的范围和时间段内新增的数据进行逐一核检数据质量。

(三)抽样核检

按照抽样方案,对抽样的数据进行逐一数据质量核检。

STEP7:【数据质量问题分析】

    通过数据质量核验,梳理出数据质量问题清单,对数据质量问题进行根因分析,找出数据质量问题存在的根本原因。

(图五)数据质量问题根因分析

SETP8:【数据质量评分】

    对数据质量核检的结果进行汇总评分,数据质量评分采用简单比率法和加权平均法相结合的方法进行计算,评分按照规则级、表级、部门级进行数据质量分计算。评分技术方式如下:

    (一)规则级质量评分计算

    各类数据质量规则得分的计算采用简单比率法进行计算,按所有符合规则的数据数量(F)占所有的评价数据数量(S)的比率F/S,即每条规则执行合格率R=F/S。

(二)数据表质量评分计算

    将每条规则的评分结果和每条规则的权重之积相加。

(三)部门数据质量评分

部门所校验每个表的评分之和求平均数。

STEP9:【数据质量等级评定】

    数据质量等级根据数据质量评分划分为质优、质中、质差,数据质量等级的评价规则如下:

(一)质优:80≤质量得分≤100;

(二)质中:60≤质量得分<80;

   (三)质差:质量得分<60。

STEP10【报告编制】

    根据数据质量评价结果编制数据质量报告,按照月度报告和年度报告的方式进行汇总,数据质量报告的内容包括且不限于:评价对象、评价规则、评价指标、评价周期、评价得分及建议需整改的数据质量问题等。

    数据质量报告应当清晰的表达出数据管理工作和IT管理工作分离的必然性,只有从组织上分离,才可能真正发挥数据治理立法监督的特性,否则就是裁判和运动员一体,很难有效客观的推动组织的数据管理能力建设。

STEP11【质量报告反馈】

    数据质量问题报告因由数据管理方和数据使用方定期进行评审和确认,由数据提供方认领数据质量问题,并制定数据质量问题整改计划,经整改后的数据质量问题应由数据团队进行验证,验证通过后方可继续开发利用。从而对数据质量管理工作进行持续性提升。

三、相关参考

附1:各地区对于数据质量相关政策参考:

    GB/T 36344-2018 信息技术 数据质量评价指标

    福建省-DB35T1952-2020公共信息资源开放+数据质量评价规范

    贵州省-DB52T1540.4-2021政府数据质量评价规范

    杭州市-DB3301T 0364.1—2022公共数据质量治理 第1部分:体系架构

    黔南州-DB5227T112—2022智慧黔南数据质量评价规范

    陕西-政务数据治理规范 第2部分 数据标准与质量管理(征求意见稿)

附2:数据质量管理工作实施相关模板参考:

 

 ———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

  

          ———— 更多资讯请添加公众号————

  ———— 欢迎加入社区讨论数据治理————

  • 42
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

elevenli9216

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值