1、基本概念
数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。
区分规则维度有助于:
-
将维度与业务需求相匹配,并且划分评估的先后顺序;
-
了解从每一维度的评估中能够/不能够得到什么;
-
在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序。
数据质量检核主要分为以下规则维度:
-
完整性(Completeness):用来描述信息的完整程度。
-
唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。
-
有效性(Validity):用来描述模型或数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。
-
一致性(Consistency):用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。
-
准确性(Accuracy):用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可访问的权威参考源)。
-
及时性(Timeless):用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。
-
可信性(credibility):用来描述数据发生是否符合客观规律。
每一规则维度可能需要不同的度量方法、时机和流程。这就导致了完成检核评估所需要的时间、金钱和人力资源会呈现出差异。数据数据质量的提升不是一蹴而就的,在清楚了解评估每一维度所需工作的情况下,选择那些当前较为迫切的检核维度和规则,从易到难、由浅入深的逐步推动数据质量的全面管理与提升。规则维度的初步评估结果是确定基线,其余评估则作为继续检测和信息改进的一部分,作为业务操作流程的一部分。
2、数据完整性
非空约束:描述检核对象是否存在数据值为空的情况。如客户开户时,客户名称是必填项,不能出现为空的情况。
3、数据唯一性
唯一性约束:描述同一客观实体在不同业务数据集中的信息,经整合后是唯一的,针对目标通常是单一主键或联合主键,如证件类型+证件号码+姓名相同,则其客户编号应唯一。
4、数据有效性
代码值域约束:描述检核对象的代码值是否在对应的代码表内。如业务规则定义“性别”的取值应该是“1-未知的性别”、“2-男性”、“3-女性”、“4-未说明的性别”,如果出现“A”、“B”这样的取值,则认为“性别”的代码值域存在问题;
长度约束:描述检核对象的长度是否满足长度约束。如“金融机构编码”在《人民银行金融机构编码规范》中规定长度为14位,如果出现非14位的值,则判定为不满足长度约束,不是一个有效的“金融机构编码”;
内容规范约束:描述检核对象的值是否按照一定的要求和规范进行数据的录入与存储。如“存款账号”应仅含数字,如果出现字母或其他非法字符,则不是一个有效的“存款账号”,不满足内容规范约束;
取值范围约束:描述检核对象的取值是否在预定义的范围内。如“授信额度”取值范围应大于等于 0,如果出现小于 0 的情况,则超出了取值范围的约束,不是一个有效的“授信额度”;
5、数据一致性
等值一致性依赖约束:描述检核对象之间数据取值的约束规则。一个检核对象数据取值必须与另一个或多个检核对象在一定规则下相等。
存在一致性依赖约束:描述检核对象之间数据值存在关系的约束规则。一个检核对象的数据值必须在另一个检核对象满足某一条件时存在。
逻辑一致性依赖约束:描述检核对象之间数据值逻辑关系的约束规则。一个检核对象上的数据值必须与另一个检核对象的数据值满足某种逻辑关系(如大于、小于等)。
6、数据准确性
数据准确性主要是指取值的准确性,描述该检核对象是否与其对应的客观实体的特征相一致。
7、数据及时性
及时性约束:描述检核数据能否及时反映其对应的实际业务的时点状态。
8、数据可信性
数据可信性约束:描述再数据同步中每日/月增量数据是否符合理论的经验值。
例如:保单数据的每日分区数据较前日一般有 10% 增长,突然数据增长变为200%,这种情况有可能时数据同步出现问题。