数据质量评价指标【国家标准】

原创已于 2024-10-16 08:22:23 修改 · 1.5w 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-04-29 22:44:55 首次发布

本文探讨了数据质量评价指标，包括规范性、完整性、准确性、一致性、时效性和可访问性，并在数据治理中详细介绍了如何通过计算准确率、空值率、差异率等指标来评估数据质量，以及设置阈值以确保数据的适用性。

1. 数据质量评价指标框架见图1所示：

在这里插入图片描述

2. 说明

1）规范性
数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。

2）完整性
按照数据规则要求，数据元素被赋予数值的程度。

3）准确性
数据准确表示其所描述的真实实体（实际对象）真实值的程度。

4）一致性
数据与其他特定上下文中使用的数据无矛盾的程度。

5）时效性
数据在时间变化中的正确程度。

6）可访问性
数据能被访问的程度。

1.标准

1）准确性
评估数据与真实事实之间的一致性和准确性。

计算公式：

  准确率 = (正确数据记录数 / 总数据记录数)  x 100%

2）完整性
评价数据中是否有缺失值。

计算公式：

 空值率 = (缺失或为空的记录数 / 总记录数) × 100%

3）一致性
评估数据集中数据的逻辑关系是否一致。

计算公式：

使用适当的统计方法（如差异率、标准差等）计算不同数据源间选定字段的数据差异。

4）唯一性
评估数据集中的重复值。重复数据可能会引入偏见和错误的结果。一种方法是通过对属性值进行排序和消除重复值的方法来检查数据集中的重复数据。

计算公式：

 重复数据比例 = (重复值数量 / 总数据量) × 100%

5）及时性
评估数据的更新速度和时效性。数据的时效性可以影响数据分析的结果和决策制定的有效性。

计算公式：

  计算数据更新延迟 = 当前时间 - 数据最后更新时间戳

6）可用性

计算公式：

数据可访问率 = (成功访问的请求数量 / 总请求数量) × 100%。

2.阈值

以上评价指标都需要设定一个阈值，当通过上述计算公式计算得到结果，超过（或低于）阈值，表示违反了相关质量评价指标。需要对数据进行治理，以提高数据治理，使其满足具体应用需求。