数据质量管理-关联性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

关联性怎么进行数据监测和指标量化

定义:数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

作用的环节:可以在数据治理完成后的数据明细层(dwd);

数据质量管理依据:依据关联关系建设标准进行监测,当前数据关联度可以划分为:实体与实体的关联关系、实体与事件的关联关系、实体与时间的关联关系、实体与地理信息的关联关系、实体与其他属性的关联关系,为了避免字段完整性和关联性的重复计算问题,数据关联性维度可仅统计存在多表关联的情况

数据监测方法:在数据关联性的质量监测过程中,分以下步骤:

1.需要识别事实表,即确立需要统计的实体;

2.识别表中的外键(外键(FK)是一个表中的 FOREIGN KEY 指向另一个表中的 UNIQUE KEY(唯一约束的键));

3统计去重后的 FOREIGN KEY 占比 UNIQUE KEY的值;

量化标准

关联性的量化标准如下图所示:

1.事实表表名:确定要被统计的实体事实表;

2.事实表中文名:事实表中文释义;

3.UNIQUE KEY:事实表中的唯一键;

4.关联表表名:确定与实体事实表存在关联关系的表名;

5.关联表表中文名:确定与实体事实表存在关联关系的表中文释义;

6.FOREIGN KEY:与事实表的关联字段;

7.事实表实体有效记录数:事实表中的实体有效记录数;

8.关联表实体有效去重记录数:关联表中存储的去重后的有效实体数;

9.关联度:关联度=关联表实体有效去重记录数/事实表实体有效记录数;

最后,事实表******AAA的关联度是基于三张关联表的平均关联度进行赋分;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值