前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;
定性指标:规范性、准确性、唯一性、可访问性
定量指标:完整性、时效性、关联性
规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;
完整性--按照数据规则要求,数据元素被赋予数值的程度;
准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;
一致性--数据与其他特定上下文中使用的数据无矛盾的程度;
时效性--数据在时间变化中的正确程度;
可访问性--数据能被访问的程度;
关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
关联性怎么进行数据监测和指标量化
定义:数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
作用的环节:可以在数据治理完成后的数据明细层(dwd);
数据质量管理依据:依据关联关系建设标准进行监测,当前数据关联度可以划分为:实体与实体的关联关系、实体与事件的关联关系、实体与时间的关联关系、实体与地理信息的关联关系、实体与其他属性的关联关系,为了避免字段完整性和关联性的重复计算问题,数据关联性维度可仅统计存在多表关联的情况;
数据监测方法:在数据关联性的质量监测过程中,分以下步骤:
1.需要识别事实表,即确立需要统计的实体;
2.识别表中的外键(外键(FK)是一个表中的 FOREIGN KEY 指向另一个表中的 UNIQUE KEY(唯一约束的键));
3统计去重后的 FOREIGN KEY 占比 UNIQUE KEY的值;
量化标准
关联性的量化标准如下图所示:
1.事实表表名:确定要被统计的实体事实表;
2.事实表中文名:事实表中文释义;
3.UNIQUE KEY:事实表中的唯一键;
4.关联表表名:确定与实体事实表存在关联关系的表名;
5.关联表表中文名:确定与实体事实表存在关联关系的表中文释义;
6.FOREIGN KEY:与事实表的关联字段;
7.事实表实体有效记录数:事实表中的实体有效记录数;
8.关联表实体有效去重记录数:关联表中存储的去重后的有效实体数;
9.关联度:关联度=关联表实体有效去重记录数/事实表实体有效记录数;
最后,事实表******AAA的关联度是基于三张关联表的平均关联度进行赋分;