1 数据质量维度
国际国内机构都发布了一系列数据质量要求 ,总括来看,常用的数据质量维度主要有:
- 准确性:accuracy 数据值的正确性、可靠性、和可鉴别程度,度量: 真实值数量/所有值数量
- 完整性:completeness 具有实体描述所有必需的部分,度量:非空值数量/所有值数量
- 一致性 :consistency 关联数据之间逻辑关系正确和完整,度量:一致值数量/所有值数量
- 可访问性:accessibility 用户可以获得数据程度。度量: 1- 不可访问值数量/所有值数量
- 及时性: tineliness 数据充分更新的程度 度量:log(数据获取时间 - 数据最后更新时间)
其他一些常用数据质量维度:
- 可信度 credibility 来源权威性、数据规范性、数据可证实性 度量:由三个部分加权得到。
- 相关性 relevance 服务与使用者所追求目标的贴近程度 度量:有相关性数据值/所有值数量
- 适应性 fitness 数据生产数量及与用户需求吻合程度 度量:由两个部分加权得到。
- 可审计性 audit 可以在合理的时间和代价下,对数据的特性做出公正评价。 度量:可审计数据值/所有值数量
- 可读性 readability 数据内容可以被正确解释的能力 度量: 1- 不可理解数据值数量/所有值数量 通常可以理解为非简单数据又没有注释性信息的数据。
- 唯一性 uniqueness 无重复 度量: 1- 重复值数量/所有值数量
- 授权 authorization 使用数据的权力 度量: 系统所有用户获得授权数据值数量/所有值数量
2 数据质量评估框架
一系列框架,比如DQAF、AIMQ、DQA。以AIMQ为例:
表1 信息质量维度表
IQ类别 | IQ指标 |
固有IQ | 准确性、可信度、客观性、声誉 |
上下文IQ | 增值能力、相关性、完整性、及时性、合适的数量 |
可表达性IQ | 可理解性、可解释性、简明的表达、一致性、可表示性 |
可访问性IQ | 可访问性、易于操作、安全性 |
3 数据质量规则示例
附录 :以下摘录自内蒙古地方标准 《DB15/T 1873—2020 大数据平台 数据接入质量规范》
1完整性
按照数据规则要求,数据元素被赋予数值的程度。即完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低,完整性是数据质量评估标准的基础。
表1完整性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 数据元素完整性 | 按照业务规则要求,数据集中应被赋值的数据元素的赋值程度。 | 计算公式:X=A/B 式中 A=被赋值的数据集中元素的个数; B=预期被赋值的数据集中元素的个数 |
2 | 数据记录完整性 | 按照业务规则要求,数据集中应被赋值的数据记录的赋值程度。 | 计算公式:X=A/B 式中 A=被赋值的数据集中元素的个数; B=预期被赋值的数据集中元素的个数 |
2规范性
数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
表2 规范性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 数据标准 | 数据符合数据标准的度量。 注1:评价数据质量时需要收集数据在命名、创建、定义、更新和归档时遵循的标准,包括国际标准、国家标准、行业标准、地方标准或相关规定等。 注2:和数据归档一样甚至更重要,在一个完整的数据规则中,旧数据的销毁一般也有一个比较详细且具有可行性的规定。 | 计算公式:X=A/B 式中 A=满足数据标准要求的数据集中元素的个数; B=被评价的数据集中元素个数
|
2 | 数据模型 | 数据符合数据模型的度量。 注1:数据模型是一种直观描述组织数据结构的手段,是数据表达的规范。 注2:评价数据质量时需要检查是否存在清晰且可理解的数据模型定义以及这些数据的组织形式。 | 计算公式:X=A/B 式中 A=满足数据模型要求的数据集中元素的个数; B=被评价的数据集中元素个数
|
3 | 元数据 | 数据符合元数据定义的度量。 注1:元数据标注、描述或刻画其他数据、以使检索或使用数据更容易。评价数据质量时需要检查是否提供可解读的元数据文档。 | 计算公式:X=A/B 式中 A=满足元数据定义的数据集中元素的个数; B=被评价的数据集中元素个数
|
4 | 业务规则 | 数据符合业务规则的度量。 注1:业务规则是一种权威性原则或业务方针,用来描述业务交互,并建立行动和数据行为结果及完整性的规则。 注2:评价数据质量时需要检查是否存在良好归档的业务规则。 | 计算公式:X=A/B 式中 A=满足业务规则的数据集中元素的个数; B=被评价的数据集中元素个数
|
5 | 权威参考数据 | 参考数据是系统、应用软件、数据库、流程、报告及交易记录和主记录用来参考的数值集合和分类表。 注1:评价数据质量时需要收集参考数据列表。 | 计算公式:X=A/B 式中 A=满足参考数据规则的数据集中元素的个数; B=被评价的数据集中元素个数 |
6 | 安全规则 | 安全规则是安全和隐私方面的规则,包括数据权限管理,数据脱敏处理等。 | 计算公式:X=A/B 式中 A=满足安全规范的数据集中元素的个数; B=被评价的数据集中元素个数 |
3一致性
数据与其他特定上下文中使用的数据无矛盾的程度。即一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。
表3一致性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 相同数据一致性 | 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性,数据发生变化时,存储在不同位置的数据的同一数据被同步修改。 | 计算公式:X=A/B 式中 A=满足一致性要求的数据集中元素的个数; B=被评价的数据集中元素个数; |
2 | 关联数据一致性 | 根据一致性约束规则检查关联数据的一致性。 | 计算公式:X=A/B 式中 A=满足一致性要求的数据集中元素的个数; B=被评价的数据集中元素个数; |
4准确性
数据准确表示其所描述的真实实体(实际对象)真实值得程度。即准确性是指数据记录的信息是否存在异常或错误。
表4准确性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 数据内容正确性 | 数据内容是否是预期数据。 | 计算公式:X=A/B 式中 A=满足数据正确性要求的数据集中元素的个数。 B=被评价的数据集中元素个数; |
2 | 数据格式合规性 | 数据格式包含(数据类型、数据范围、数据长度、精度等)是否满足预期要求。 | 计算公式:X=A/B 式中 A=满足格式要求的数据集中元素的个数。 B=被评价的数据集中元素个数; |
3 | 数据重复率 | 特定字段、记录、文件或数据集意外重复的度量。 | 计算公式:X=A/B 式中 A=重复数据集中元素的个数 B=被评价的数据集中元素个数; |
4 | 数据唯一性 | 特定字段、记录、文件或数据集唯一性的度量。 | 计算公式:X=A/B 式中 A=满足唯一性要求的数据集中元素的个数; B=被评价的数据集中元素个数; |
5 | 脏数据出现率 | 正确字段、记录、文件或数据集之外无效数据的度量。 | 计算公式:X=A/B 式中 A=有脏数据出现的数据集中元素的个数; B=被评价的数据集中元素个数; |
5唯一性
数据唯一不重复。即唯一性是指度量哪些数据是重复数据或者数据的哪些属性是重复的。
6关联性
数据的关联不可缺失的。即关联性是度量哪些关联的数据缺失或者未建立索引。
关联性评价因素:
- 查找到的信息和主题不完全一致,但确是其中某一方面的阐述。;
- 查找到的信息集合多数在用户需要的检索主题内。;
- 提供的信息主题与用户检索主题相匹配。;
- 查找到的信息多数与用户需要的信息无关。;
- 信息必须和用户需求有相关性。
7时效性
数据在时间变化中的正确程度。即及时性是指数据从产生到可以查看的时间间歇,也叫做数据的延时时长,及时性对数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析出的结论失去借鉴意义。
表5时效性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 基于时间段的正确性 | 基于日期范围内的记录数或频率分布符合业务需求的程度。 | 计算公式:X=A/B 式中 A=满足有效性要求的数据集中元素的个数; B=被评价的数据集中元素个数; |
2 | 基于时间点的及时性 | 基于时间戳的记录数、频率分布或延时时间符合业务需求的程度。 | 计算公式:X=A/B 式中 A=满足及时性要求的数据集中元素的个数 B=被评价的数据集中元素个数; |
3 | 时序性
| 数据集中同一实体的数据元素之间的相对时序关系。 | 计算公式:X=A/B 式中 A=满足时序性要求的数据集中元素的个数; B=被评价的数据集中元素个数;88 |
8 可访问性
数据能被访问的程度。
表6可访问性评价指标
序号 | 指标名称 | 指标描述 | 计算方法 |
1 | 可访问 | 数据在需要时的可获取性。 | 计算公式:X=A/B 式中 A=满足可访问性要求的数据集中元素的个数 B=被评价的数据集中元素个数; |
2 | 可用性 | 数据在设定有效生存周期内的可使用性。 | 计算公式:X=A/B 式中 A=满足可用性要求的数据集中元素的个数; B=被评价的数据集中元素个数 |