数据治理–浅谈数据质量管理【从方法论、质量标准、手段、流程分析】
在谈到数据质量时,数据质量问题可能千变万化,如数据不符合标准规范、数据相互矛盾、字段的取值类型不符合期望(如商品的价格期望是float类型,但却是string类型)等
如何针对数据质量进行管理,在提升数据质量的同时促进生产效率的提升呢?
1. 数据质量方法论
但如何针对数据进行质量评价呢,可以参照2018年颁布的推荐性国家标准《GB/T 36344-2018 信息技术 数据质量评价指标》进行评价。
1.1. 数据质量评价指标
《GB/T 36344-2018 信息技术 数据质量评价指标》从如下6个方面针对数据质量进行评价:
- 规范性: 数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
- 完整性: 按照数据规则要求,数据元素被赋予数值的程度。
- 准确性: 数据准确表示其所描述的真实实体(实际对象)真实值的程度。
- 一致性: 数据与其他特定上下文中使用的数据无矛盾的程度。
- 时效性: 数据在时间变化中的正确程度。
- 可访问性: 数据能被访问的程度
1.1.1. 数据规范性
数据符合规范定义的程度
规范定义是指:数据标准、数据模型、业务规则、元数据、权威参考数据(国际、国家、行业标准)、安全规范
如数据模型中用户表定义的性别是0、1、2、9且是tinyint类型,如果数据是string类型,则此数据就不符合规范。
1.1.2.数据完整性
数据元素被赋予数值的程度,即数据够不够,有没有空的或缺失的
- 数据记录完整性: 如实际有10000万记录,但表中只有9900条记录,缺失了100条记录
- 数据元素完整性:如根据数据规范性,一些必填的字段有部分记录没有赋予值,如订单的收货地址的值部分记录为空
1.1.3. 数据准确性
准确表示其所描述的真实实体(实际对象)真实值的程度,即数据的正确程度
- 内容正确性
- 格式合规性
- 数据唯一性
- 脏数据出现率
- 数据重复率
可以通过程序规则,根据衡量数据准确性的指标,针对每一条数据进行统计,从而定量的来评估数据的正确程度
1.1.4.数据一致性
用来衡量数据无矛盾的程度
- 相同数据的一致性: 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性;数据发生变化时,存储在不同位置的同一数据被同步修,如订单中商品的价格 与 商品表中的商品价格 应该是一致的
- 关联数据的一致性: 根据一致性约束规则检查关联数据的一致,如订单表 和 物流表中的订单数据应该是一致的
1.1.5. 数据时效性
在时间变化中的数据正确程度
- 基于时间段的正确性: 基于日期范围的记录数或频率分布符合业务需求的程度
- 基于时间点及时性:基于时间戳的记录数、频率分布或延迟时间符合业务需求的程度
- 时序性:数据集中同一实体的数据元素之间的相对时序关系,如下单时间早于支付时间,商品的用户收货时间晚于配送时间
1.1.6.数据可访问性
- 可用性:数据在设定有效生存周期内的可使用性, 即数据在生命周期内才可访问性,
- 可访问性:数据在需要时的可获取性,
注意:以上六个方面不是静态的,一成不变的,当后续的数据还有进一步加工处理的时候,在整个数据处理的链路过程中,越早发现数据质量问题,越早解决问题,越能整体提高数据生产的效率。
2. 数据质量标准、手段及流程
2.1. 数据质量标准
进行数据质量管理,首先要有 数据质量标准。
所以最重要、最核心的部分是制定数据质量标准。 注意:数据质量标准的定义是一个持续迭代、反复确认的过程。
需要结合国定、行业标准,实际的业务要求,从规范性、完整性、一致性、准确性、时序性、可访问性6个方面,制定均衡数据质量的具体标准,如性别的值是0,1,2,9;订单的收货地址不能为空等
2.2. 质检手段
数据的完整性如何统计、正确性如何去衡量、一致性如何评估,总结起来,有三种质检办法:抽样、统计、规则
2.3. 流程
- 首先最重要、最核心的部分是制定数据质量标准,这一部分需要成立专门的团队负责
- 然后根据数据标准,需要围绕数据质量管理的流程体系,针对数据处理链路的全部或关键的数据节点,针对数据进行质检(如抽样、统计)
- 形成**质量检查报告 ** 及 项目质量风险评估,定量的来评估数据的质量
- 根据发现的数据质量问题,针对整个数据处理链路(ETL过程)进行持续改进,有两个关键点:
- 质检自动化: 快速的发现质量问题,才能快速的处理问题数据
- 质检规则的持续积累:将人的工作转化为机器的工作,降低质检中人的成本。