数据质量管理
一、为什么要做数据质量管理
数据往往是用来支持决策和服务业务的,不少企业搭建数据中台让数据更好的利用起来发挥价值。但在使用的过程中往往会由于缺乏管理经验、没有完整的数据源架构、数据流程或者业务流程不完美、缺乏数据质量管理经验等原因或多或少的存在数据质量问题。(对于没有一个好的数据中台不重视数据的公司更是如此)。然而错误的数据常常导致错误的判断,从而做出有失偏颇的决策。所以数据质量是数据管控中很重要的一个环节。
二、数据质量改进的方法
PDCA方法论(戴明环)是公认的比较好的一个数据质量改进的方法论。P(plan计划)、D(do行动)、C(check检查)、A(act处理)。先制定计划,按照计划付诸行动,对发现的问题进行解决。一轮一轮的进行下去,将已解决的纳入标准,未解决的起单独的专题进行讨论形成可行的方案迭代到下一轮。
处理阶段主要包括问题的记录、分析和处理。找出数据问题的主要影响因素,针对主要原因提出措施并实施下去。随着问题的解决和方案的实施又进入新一轮的戴明环。循环往复
完整性 | 数据是否完全会不会存在部分分支数据未纳入 |
---|---|
一致性 | 相同的数据诉求是否采用不同的来源或者加工逻辑,导致数据链路和结果不一致。或者做共性加工的时候共性逻辑不被完全认可,此时需要识别是需求描述存在二义性导致错误对齐,还是本身的逻辑就存在分支导致的不完整 |
准确性 | 数据流转才不同的系统之间(对于没有一个好的数据中台的公司尤为明显),不同的地方计算了相同的应用必然存在数据的准确问题。在复杂的链路中可能某个小环节出现纰漏则会失之毫厘谬以千里。 |
唯一性 | 相同需求的数据链路和计算方式是否唯一 |
有效性 | 数据都是有时效性的,如果在数据为准备完全或者说是数据在使用完毕之后才稳定下来,那么数据本身也就失去了意义 |
及时性 | 不及时的数据往往是无效的(此处引用黄宏老师的话:大鼻涕流嘴里了你才知道往出甩了) |
分析数据——>定义规则——>质量监控——>实施整改
三、数据质量管理原则
1、标准化数据质量问题和活动。统一企业/组织内部描述数据问题的术语以及定义,以简化问题的分类,上下游人员沟通更加通畅。
2、提供数据问题的分配过程。数据质量问题发生后,可以由数据治理专员分配给具体责任人或专家进行诊断,并提供解决方案,可下发给具有特定专业领域知识的人员推动问题解决。
3、管理问题分级机制。数据质量问题处理能通过分级分类,区分问题影响,需要根据问题的影响、持续时间或紧急程度制定明确的升级机制,明确不同问题在数据质量SLA中的地位。
4、管理数据质量解决方案工作流。制定数据质量SLA规范,规定监控、控制和解决的目标,所有这些定义了操作工作流的集合。能通过事件跟踪系统支持工作流管理,以跟踪问题诊断和解决的进度。