【数据治理】浅谈数据质量管理【从方法论、质量标准、手段、流程分析】

本文探讨数据质量管理,涵盖方法论、质量标准、质检手段和流程。通过GB/T 36344-2018标准,阐述数据的规范性、完整性、准确性、一致性、时效性和可访问性等六项评价指标,并强调制定数据质量标准的重要性,以及抽样、统计和规则等质检方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据治理–浅谈数据质量管理【从方法论、质量标准、手段、流程分析】

在谈到数据质量时,数据质量问题可能千变万化,如数据不符合标准规范、数据相互矛盾、字段的取值类型不符合期望(如商品的价格期望是float类型,但却是string类型)等

如何针对数据质量进行管理,在提升数据质量的同时促进生产效率的提升呢?

1. 数据质量方法论

但如何针对数据进行质量评价呢,可以参照2018年颁布的推荐性国家标准《GB/T 36344-2018 信息技术 数据质量评价指标》进行评价。

1.1. 数据质量评价指标

《GB/T 36344-2018 信息技术 数据质量评价指标》从如下6个方面针对数据质量进行评价:

  • 规范性: 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
  • 完整性: 按照数据规则要求,数据元素被赋予数值的程度。
  • 准确性: 数据准确表示其所描述的真实实体(实际对象)真实值的程度。
  • 一致性: 数据与其他特定上下文中使用的数据无矛盾的程度。
  • 时效性: 数据在时间变化中的正确程度。
  • 可访问性: 数据能被访问的程度
    在这里插入图片描述

1.1.1. 数据规范性

数据符合规范定义的程度
规范定义是指:数据标准、数据模型、业务规则、元数据、权威参考数据(国际、国家、行业标准)、安全规范

如数据模型中用户表定义的性别是0、1、2、9且是tinyint类型,如果数据是string类型,则此数据就不符合规范。

1.1.2.数据完整性

数据元素被赋予数值的程度,即数据够不够,有没有空的或缺失的

  • 数据记录完整性: 如实际有10000万记录,但表中只有9900条记录,缺失了100条记录
  • 数据元素完整性:如根据数据规范性,一些必填的字段有部分记录没有赋予值,如订单的收货地址的值部分记录为空

1.1.3. 数据准确性

准确表示其所描述的真实实体(实际对象)真实值的程度,即数据的正确程度

  • 内容正确性
  • 格式合规性
  • 数据唯一性
  • 脏数据出现率
  • 数据重复率

可以通过程序规则,根据衡量数据准确性的指标,针对每一条数据进行统计,从而定量的来评估数据的正确程度

1.1.4.数据一致性

用来衡量数据无矛盾的程度

  • 相同数据的一致性: 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性;数据发生变化时,存储在不同位置的同一数据被同步修,如订单中商品的价格 与 商品表中的商品价格 应该是一致的
  • 关联数据的一致性: 根据一致性约束规则检查关联数据的一致,如订单表 和 物流表中的订单数据应该是一致的

1.1.5. 数据时效性

时间变化中的数据正确程度

  • 基于时间段的正确性: 基于日期范围的记录数或频率分布符合业务需求的程度
  • 基于时间点及时性:基于时间戳的记录数、频率分布或延迟时间符合业务需求的程度
  • 时序性:数据集中同一实体的数据元素之间的相对时序关系,如下单时间早于支付时间,商品的用户收货时间晚于配送时间

1.1.6.数据可访问性

  • 可用性:数据在设定有效生存周期内的可使用性, 即数据在生命周期内才可访问性,
  • 可访问性:数据在需要时的可获取性,

注意:以上六个方面不是静态的,一成不变的,当后续的数据还有进一步加工处理的时候,在整个数据处理的链路过程中,越早发现数据质量问题,越早解决问题,越能整体提高数据生产的效率。

2. 数据质量标准、手段及流程

2.1. 数据质量标准

进行数据质量管理,首先要有 数据质量标准。

所以最重要、最核心的部分是制定数据质量标准。 注意:数据质量标准的定义是一个持续迭代、反复确认的过程。

需要结合国定、行业标准,实际的业务要求,从规范性、完整性、一致性、准确性、时序性、可访问性6个方面,制定均衡数据质量的具体标准,如性别的值是0,1,2,9;订单的收货地址不能为空等

2.2. 质检手段

数据的完整性如何统计、正确性如何去衡量、一致性如何评估,总结起来,有三种质检办法:抽样、统计、规则

2.3. 流程

  • 首先最重要、最核心的部分是制定数据质量标准,这一部分需要成立专门的团队负责
  • 然后根据数据标准,需要围绕数据质量管理的流程体系,针对数据处理链路的全部或关键的数据节点,针对数据进行质检(如抽样、统计)
  • 形成**质量检查报告 ** 及 项目质量风险评估,定量的来评估数据的质量
  • 根据发现的数据质量问题,针对整个数据处理链路(ETL过程)进行持续改进,有两个关键点:
    • 质检自动化: 快速的发现质量问题,才能快速的处理问题数据
    • 质检规则的持续积累:将人的工作转化为机器的工作,降低质检中人的成本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值