数据质量评价系统
一、前言
创作系统就像汇报一样,阐述总分总,或者总分格式,下面开始介绍数据质量评价系统的业务设计。
二、系统模块分解
在设计数据质量评价系统是先问自己几个问题,数据质量评价是什么?对什么对象的质量进行评价?评价了多少?评价之后会产生什么?有质量好的就会有质量坏的,质量坏的如何处理?质量评价的依据是什么,有法可依?根据以上几个问题我们设计了一下几个模块:
- 数据概览 (评价了多少?)
- 数据集评估 (对什么对象的质量进行评价?评价之后会产生什么?)
- 数据质量检测(对什么对象的质量进行评价?)
- 数据质量报告管理(评价之后会产生什么?)
- 脏数据管理(有质量好的就会有质量坏的,质量坏的如何处理?)
- 数据质量规则管理(质量评价的依据是什么,有法可依?)
三、数据概览
(一)业务分析
- 对数据质量评价子系统校验过得数据进行分源类别、分区划等要素进行统计展示
- 统计形式包含:列项统计、文字形式统计、图表统计
- 列项展示内容:监控表数量、监控字段数量、数据质量业务规则数量、累计数据质检数量、平均Q值。
- 文字形式统计内容:对象总数
- 图表形式统计内容:根据类别统计对象数量、根据其他类别统计对象数量
- 支持查看历史数据。
(二)技术分析
- 涉及数据库表
对象数量统计:区划名称、区划代码、类别、数量、监控表数量、监控字段数量、数据质量业务规则数量、累计数据质检数量、创建时间、更新时间、启用禁用状态。 - Q值计算公式:100-(总数/错误数据)*100=Q
四、数据集评估
(一)业务分析
- 普通用户登录清单展示该用户导入的数据集基本信息。
- 管理员用户登录清单展示本系统已导入的所有数据集基本信息。
- 若未导入数据则提示“尚未导入数据,请于数据质量检测菜单根据数据模板导入数据”。
(二)技术分析
- 涉及数据库设计
(1) 数据集基本信息表:数据集名称、导入时间、导入人、启用禁用状态、Q值。
(2