前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;
定性指标:规范性、准确性、唯一性、可访问性
定量指标:完整性、时效性、关联性
规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;
完整性--按照数据规则要求,数据元素被赋予数值的程度;
准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;
一致性--数据与其他特定上下文中使用的数据无矛盾的程度;
时效性--数据在时间变化中的正确程度;
可访问性--数据能被访问的程度;
关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
完整性指标怎么进行数据监测和指标量化呢 ?
官方定义:按照数据规则要求,数据元素被赋予数值的程度;
完整性的定义可以从外部对比的完整性和内部对比的完整性两个方向来梳理;
外部对比的完整性:是指当数据资源是从外部获取的时候,需要比对数据来源与组织内部数据库中的数据记录数和完整度是否保持一致的情况;此类数据完整性的比对耗费的成本较高,
内部对比的完整性:是指组织内部对数据的完整性有一定要求,比如要求某个字段的数据完整度要达到100%、85%等,在此基础上监测数据库中该字段的实际完整度,基于此类标准计算相关完整度信息;
作用的环节:外部对比的完整性需要在数据归集环节监测,内部对比的完整性可以在数据治理完成后的数据服务层(dws/ads);
数据质量管理依据:在外部对比完整性的维度上,需要依托数据归集标准;在内部对比完整性的维度上,需要依托数据分类分级标准;
数据监测方法
外部对比的完整性可以从三个维度着手:
一是归集任务监测:在数据归集的过程中监测每一次任务执行状态(成功与否);
二是数据变动记录监测:任务完成后的insert、update的记录数,基于监测到的新增和更新数量,计算同比和环比两个维度,且根据历史周期内的均值,划分异常阈值,按照偏差程度赋值分数;
三是外部数据分析:定期抽检一定周期内的数据源记录数和数据库中的记录数,对比二者差异情况,基于差异情况进行评分【此类评分带有相对的业务偏差性和主观性,无法纳入日常监测的量化标准,可以以周期性报告输出】;
内部对比的完整性监测则比较简单,通过直接监测数据库中字段内容覆盖的完整度即可;
量化标准:在做数据完整性的量化指标时,需要设置不同维度的权重,因为上述评价维度存在依赖关系。
外部对比的完整性:外部对比的完整性监测流程主要在数据归集过程和贴源层(stg)进行搭建,日常监测主要为归集任务监测、数据变动记录监测,建议在数据质量监测体系搭建的过程中,将归集任务监测的权重设置为60%(数据归集任务成功与否是数据完整性的前提),数据变动记录监测设置为40%。搭建完成后,对应查看该指标的用户是数据开发和数据业务人员,主要监测数据归集过程的完整性;
归集任务监测量化标准【60%】
数据变动记录监测标准【40%】
数据变动记录的监控,首先需要先存储一张历史周期内的均值表,如表一所示,其次给出每个阶段的赋值分数,如表二所示,最后再计算表的更新情况,如表三所示;
表一:
表二:
表三:
基于以上三张表的结果,计算数据变动记录的完整性得分。
例子:以*******A为例,最终外部对比的完整性计算过程为
100*0.6+95*0.4=98分
内部对比的完整性
内部对比的完整性通过直接监测数据库中字段内容覆盖的完整度,通过对比目标值和实际值的差异进行计算,此类监测目标可以圈定核心数据和重要数据进行监测,管理性价比更高,效果更显著。如果全面铺开,一个是对数据质量管理的工作量较大,需要针对每个字段进行目标值设定,第二个是在监测数据库的过程中也是对数据库性能的消耗,影响数据查询使用体验。搭建完成后,对应查看该指标的用户是数据用户和数据运营人员,主要监测数据在使用过程中的完整性;
注:在设定目标值的过程中,会因为业务人员的业务能力以及对数据的实际把控能力偏差,在目标值设定的过程中会存在差异,此时对于数据的目标值会存在一个调整和监测的周期,例如上述字段b和字段d;