【数据治理】浅谈数据质量管理【从方法论、质量标准、手段、流程分析】

数据治理–浅谈数据质量管理【从方法论、质量标准、手段、流程分析】

在谈到数据质量时,数据质量问题可能千变万化,如数据不符合标准规范、数据相互矛盾、字段的取值类型不符合期望(如商品的价格期望是float类型,但却是string类型)等

如何针对数据质量进行管理,在提升数据质量的同时促进生产效率的提升呢?

1. 数据质量方法论

但如何针对数据进行质量评价呢,可以参照2018年颁布的推荐性国家标准《GB/T 36344-2018 信息技术 数据质量评价指标》进行评价。

1.1. 数据质量评价指标

《GB/T 36344-2018 信息技术 数据质量评价指标》从如下6个方面针对数据质量进行评价:

  • 规范性: 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
  • 完整性: 按照数据规则要求,数据元素被赋予数值的程度。
  • 准确性: 数据准确表示其所描述的真实实体(实际对象)真实值的程度。
  • 一致性: 数据与其他特定上下文中使用的数据无矛盾的程度。
  • 时效性: 数据在时间变化中的正确程度。
  • 可访问性: 数据能被访问的程度
    在这里插入图片描述

1.1.1. 数据规范性

数据符合规范定义的程度
规范定义是指:数据标准、数据模型、业务规则、元数据、权威参考数据(国际、国家、行业标准)、安全规范

如数据模型中用户表定义的性别是0、1、2、9且是tinyint类型,如果数据是string类型,则此数据就不符合规范。

1.1.2.数据完整性

数据元素被赋予数值的程度,即数据够不够,有没有空的或缺失的

  • 数据记录完整性: 如实际有10000万记录,但表中只有9900条记录,缺失了100条记录
  • 数据元素完整性:如根据数据规范性,一些必填的字段有部分记录没有赋予值,如订单的收货地址的值部分记录为空

1.1.3. 数据准确性

准确表示其所描述的真实实体(实际对象)真实值的程度,即数据的正确程度

  • 内容正确性
  • 格式合规性
  • 数据唯一性
  • 脏数据出现率
  • 数据重复率

可以通过程序规则,根据衡量数据准确性的指标,针对每一条数据进行统计,从而定量的来评估数据的正确程度

1.1.4.数据一致性

用来衡量数据无矛盾的程度

  • 相同数据的一致性: 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性;数据发生变化时,存储在不同位置的同一数据被同步修,如订单中商品的价格 与 商品表中的商品价格 应该是一致的
  • 关联数据的一致性: 根据一致性约束规则检查关联数据的一致,如订单表 和 物流表中的订单数据应该是一致的

1.1.5. 数据时效性

时间变化中的数据正确程度

  • 基于时间段的正确性: 基于日期范围的记录数或频率分布符合业务需求的程度
  • 基于时间点及时性:基于时间戳的记录数、频率分布或延迟时间符合业务需求的程度
  • 时序性:数据集中同一实体的数据元素之间的相对时序关系,如下单时间早于支付时间,商品的用户收货时间晚于配送时间

1.1.6.数据可访问性

  • 可用性:数据在设定有效生存周期内的可使用性, 即数据在生命周期内才可访问性,
  • 可访问性:数据在需要时的可获取性,

注意:以上六个方面不是静态的,一成不变的,当后续的数据还有进一步加工处理的时候,在整个数据处理的链路过程中,越早发现数据质量问题,越早解决问题,越能整体提高数据生产的效率。

2. 数据质量标准、手段及流程

2.1. 数据质量标准

进行数据质量管理,首先要有 数据质量标准。

所以最重要、最核心的部分是制定数据质量标准。 注意:数据质量标准的定义是一个持续迭代、反复确认的过程。

需要结合国定、行业标准,实际的业务要求,从规范性、完整性、一致性、准确性、时序性、可访问性6个方面,制定均衡数据质量的具体标准,如性别的值是0,1,2,9;订单的收货地址不能为空等

2.2. 质检手段

数据的完整性如何统计、正确性如何去衡量、一致性如何评估,总结起来,有三种质检办法:抽样、统计、规则

2.3. 流程

  • 首先最重要、最核心的部分是制定数据质量标准,这一部分需要成立专门的团队负责
  • 然后根据数据标准,需要围绕数据质量管理的流程体系,针对数据处理链路的全部或关键的数据节点,针对数据进行质检(如抽样、统计)
  • 形成**质量检查报告 ** 及 项目质量风险评估,定量的来评估数据的质量
  • 根据发现的数据质量问题,针对整个数据处理链路(ETL过程)进行持续改进,有两个关键点:
    • 质检自动化: 快速的发现质量问题,才能快速的处理问题数据
    • 质检规则的持续积累:将人的工作转化为机器的工作,降低质检中人的成本。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据治理是一种管理组织内外部数据资源的方法论,旨在确保数据的正确性、一致性、可靠性和安全性。数据治理方法论可以帮助组织建立和维护高质量的数据资产,提高数据的价值和可信度。以下是几种常见的数据治理方法论。 首先,建立数据治理框架是数据治理方法论的核心。该框架通常包括定义组织的数据治理目标、明确责任和权限、制定数据管理流程和规范,以及建立监控和反馈机制。通过建立清晰的框架,组织可以明确每个角色的职责,确保数据管理流程的顺利进行。 其次,数据分类和标准化是数据治理的重要环节。将数据按照不同的分类标准进行整理和管理,可以帮助组织更好地理解数据,发现数据的关系和价值。此外,制定和遵守统一的数据标准,包括数据定义、命名规范等,可以提高数据的一致性和可理解性。 再次,数据质量管理数据治理的关键环节之一。通过制定数据质量指标、建立数据监控和修复机制,组织可以及时发现和纠正数据质量问题。此外,培养数据质量意识,加强数据质量培训和审查,可以提高组织成员对数据质量的重视程度。 最后,数据安全和隐私保护也是数据治理方法论的重要内容。组织应该制定数据安全策略和流程,加强对敏感数据的保护和监控措施。同时,遵守相关法规和隐私政策,保护用户的个人隐私信息,是数据治理的重要原则。 综上所述,数据治理方法论是组织管理数据资源的重要工具,包括建立数据治理框架、数据分类和标准化、数据质量管理以及数据安全和隐私保护。通过采用这些方法论,组织可以更好地管理和利用数据资源,提高数据的价值和可信度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值