数据质量评估的六个主要维度
原文下载: https://download.csdn.net/download/bigdatapang/12125767
DAMA版权所有, 翻译修订by大数据庞涛13811850730
摘要
本文描述了评估数据质量的六个方面,由英国DAMA工作组制作
定义评估数据质量的维度
背景
‘数据质量维度’这个词已经被广泛的在业内使用了很多年,然后一直没有一个统一的标准。
数据质量从业者也总是感到困惑,而商业组织的领导们就更迷惑了。
哲人苏格拉底说:智慧从定义术语开始。因此本文旨在定义关键质量维度并给出上下文,以便能形成大家一致的共识。
卡尔·R·波普爵士说过:“我没有说定义事物不能帮助链接具体问题,但是我强调的是一个术语能否可以定义出来和大多数问题确实不相关”。基本上,大家相互理解是非常非常必需的。这再次强调了本文的维度定义是帮助我们如何交流数据质量,而不是为了说明数据本身的含义和如何展现。
2012五月, DAMA UK 召集志愿者参加一个工作组来考虑出版和发布一些最佳实践,得到了大家的热烈响应,同时印证了本项工作的意义。
其他数据管理职业组织也一直支持本项工作,如 Julian Schwarzenbach, Chair of the BCS Data Management Specialist Group和 Gary Palmer, charter member of IAIDQ to join the working group.
目录
定义评估数据质量的维度 1
背景 1
什么是数据质量维度? 3
上下文 3
应用 3
如何使用数据质量维度指标 4
六个核心数据质量维度 5
完整性 6
独特性 7
时效性 (时序性) 7
有效性 8
准确性 9
一致性 10
术语表 12
作者 12
参考文献 13
什么是数据质量维度?
一个数据质量 (DQ)维度是数据管理从业者基于已有的一些标准用来评估和衡量数据质量的一个特征*方面。
例如:
• 测试数据有93%,还差7%,这是完整度;
• 测试数据的准确度是84%
一个DQ 维度不能和另外一个DQ维度类似和混淆。如:
• 其他数据管理的方面如数据仓库重的维度或数据立方体中的维度;
• 物理学中描述一个结构或物体的时间或空间维度
上下文
本文列出的最佳实践案例可以帮助数据质量从业者给他们的组织查看和描述他们的数据质量.
本文定义了六个通用的标准的数据质量维度.这可以帮助在考量数据质量的时候消除不一致的理解,消除理解上的困惑.建议数据质量从业者采用这些维度和定义作为评估和描述数据质量的通用标准.当然,某些场景里不是所有的维度都能全部用的上.
企业组织使用这些维度来评估贫乏的数据的冲击,从费用,声誉和法律法规等角度来看.
应用
本文提供了一个数据质量评估的检查列表,它不是一个强制性的列表.这个列表会根据不同的商业和工业需求而不同.
为了帮助应用本文的这些评估维度,每个维度都给出了一个仔细设计的学院样例. 这样例是精心挑选出来的,具有普遍的应用意义.
在尝试使用本文数据质量维度之前,这个组织需要为要评估的数据质量达成一致的质量规则. 这些规则基于这六个数据质量维度来开发,基于本组织的数据需求和如果不遵照这个质量规则会带来什么影响.比如:
• 错误的和空缺的电子邮箱地址对任何一个市场活动都有巨大的影响;
• 不精确的个人信息细节可能会导致丢失销售机会或者增加客户抱怨;