在谈到数据质量时,数据质量问题可能千变万化,如数据不符合标准规范、数据相互矛盾、字段的取值类型不符合期望(如商品的价格期望是float类型,但却是string类型)等
如何针对数据质量进行管理,在提升数据质量的同时促进生产效率的提升呢?
1. 数据质量方法论
但如何针对数据进行质量评价呢,可以参照2018年颁布的推荐性国家标准《GB/T 36344-2018 信息技术 数据质量评价指标》进行评价。
1.1. 数据质量评价指标
《GB/T 36344-2018 信息技术 数据质量评价指标》从如下6个方面针对数据质量进行评价:
- 规范性: 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
- 完整性: 按照数据规则要求,数据元素被赋予数值的程度。
- 准确性: 数据准确表示其所描述的真实实体(实际对象)真实值的程度。
- 一致性: 数据与其他特定上下文中使用的数据无矛盾的程度。
- 时效性: 数据在时间变化中的正确程度。
- 可访问性: 数据能被访问的程度