一、数据质量检测系统
“工欲善其事,必先利其器”需对数据质量进行测量,就需要数据质量检测系统。
测量数据质量,监控关键数据
二、检测指标如下:
2.1有效性
- 字段长度有效:
- 字段内容有效
- 字段数值范围有效
- 枚举值个数有效
- 枚举值集合有效
2.2 唯一性
- 对主键是否存在重复数据的监控指标。
2.3 完整性
- 字段是否为空或NULL
- 记录数是否丢失
- 记录数环比波动
- 录数波动范围。
- 记录数方差检验
2.4 准确性
- 数值同比
- 数值环比
- 数值方差检验
- 表逻辑检查
2.5 一致性
- 表级别一致性检查
2.6 时效性
- 表级别质量监控指标,数据是否按时产出
2.7数据剖析
- 最大值检查
- 最小值检查
- 平均值检查
- 汇总值检查
2.8 自定义规则检查
- 用户写自定义SQL实现的监控规则
从有效性、唯一性、完整性、准确性、一致性、时效性、数据剖析和自定义规则检查等几个维度对数据质量进行测量,但对于现在超级大的数据量级监控所有的数据是不符合成本效率的。因此,知道哪些数据为最关键的,对这些关键数据进行全链路的数据质量,这样有助于防止错误或揭示改进的机会。
三、数据质量问题的量化
对于数据质量的检测结果进行分析和量化,查找出现质量问题的数据链环节,定位数据问题,实行问责机制。