信息质量和信息品质
信息质量作为一种通用原则,覆盖了范围很广的话题和关注。Kumar(2005) 将信息质量归类为一种概念,而非一个可度量的变量。然而,诚然信息质量确实是一种概念或是行事原则,它也的确有着可度量的一面。而由Gackowski(2009) 及其同伴提出的术语信息品质 (quality of information, QoI)在此就显得十分有用。在他的论述中, 将信息品质定义为在特定应用中信息能够为用户提供的价值的程度。这样定义将信息质量与可度量变量(价值) 衔接起来,并将前一章我们讨论的信息理论和符号学所衍生出来的许多基本原则涵盖在内。 (译者注:在本文后面的内容中,将不再区分信息质量与信息品质,而只采用信息质量一词。)
IQ基本原则#1:仅当在应用中被使用时,信息才能产生价值。
信息是动态而非静态的,并有其自身的生命周期。McGilvray(2008) 将信息的生命周期定义为六个部分,分别是计划(planning),获取(obtaining),存储(storing),维护(maintaining),应用(applying)和销毁(disposing),又称为POSMAD。这其中,又只有应用一点,在产生价值,其它都是附加过程。存储在数据库或是文件柜里的信息包含了潜在的价值,但只有当这些信息能够被访问到,被组织成有用的形式,并用以驱动有意义的活动时,它的价值才真正体现出来。当数据以它的应用形式来组织和处理的时候,便被称为信息产品(Wang, Lee, Pipino, Strong, 1998)。
IQ基本原则#2:信息的质量与信息产品的价值成正比。
通过衡量对信息产品的使用所产生的价值,可以对信息质量进行估量。根据基本原则#2, 如果我们改变信息产品,使得它能够产生更多的价值,那么我们信息的质量也是相应的得到提升,反过来也是如此。因此,任何对信息产品的质量的衡量都必须给予某个特定应用的上下文。
IQ基本原则#3:信息产品的质量依赖于它的应用。在不同的目的下,相同的信息可以有着不同的品质。
DQ的维度和衡量
信息质量与其应用的价值之间的关系,是在信息质量领域中,最重要且常常被误解的原则之一。一个常见的误解就是:错误的认为信息的质量与数据本身的某些特征有关。这些特征被称为数据质量维度 (Data quality dimensions) 。 有许多描述数据质量维度的框架,其中最著名的就是Wang-Strong框架(Wang,Strong, 1996)。在该框架中,将数据质量分为4种类型共16个维度,如表2.1所示:
Table 2.1 Wang-Strong DQ Dimensional Framework | |||
Intrinsic | Contextual | Representational | Accessibility |
- Accuracy | - Value-added | - Interpretability | - Access |
- Believability | - Relevancy | - Ease of Understanding | - Security |
- Objectivity | - Timeliness | - Representational consistency |
|
- Reputation | - Completeness | - Conciseness of representation |
|
| - Amount of data | - Manipulability |
|
数据质量维度从各个可度量的角度来看待数据信息。有许多公式以及方法可以被用来量化这些维度。这些用来计算数据质量的维度的公式被称为DQ 评分公式或是DQ度量标准。 度量标准在数学定义中有不同的解释,与DQ领域并不完全贴合,因此术语DQ评分公式被更多的使用。举个对于数据质量的完整性维度的评分公式(Lee,Pipino, Funk, Wang, 2006):
T代表数据库表中的总行数,n代表某一特定列中包含null或者空值行数。公式的结果C的范围从0 到1, 分别代表所有的行都只含空值,和所有行都有有效值。
另一些DQ的评分公式更加复杂一些,Lee,et al.(2006) 给出的关于时效性维度的评分公式:
其中,
C: currency =(delivery time) – (input time) + (age at input)
V: volatility =length of time data is valid
S: sensitivity factor> 0
在此公式中,currency代表数据从它的创建开始直到该计算执行时的时间长度。Volatility则是数据被使用的时间长度。该公式的首先计算currency和volatility的比值,并用1减去该值。由于数据的生命时间可能比它的有用时间更长,因此C/V的值可能大于1,1 - C/V便会是个负数。如果是这样的话,便直接取公式的0值。
该公式的最后一步是给计算结果加上一个sensitivity权重因子S。当该因子为1时,那么这个比率便是线性的,即当数据变老10%时,该数据的时效性评分也相应的变低10%。
图2.1展示了当S为1时,T的值是如何随着C值的变化而线性变化的。举例来说,当C是V值的50%的时候,T则为0.5;如果C是V值的90%,T就变成了0.9。选择其它小于1的S值的时候,currency的变化所导致的T值的变化会被增强。
图2.1当S=1时,T值的线性变化
图2.2展示了当S值小于1时,T的值的变化率所发生的变化。 在这种情况下,当C为V的50%时,T的值要比0.5大。只有当C为V值的一个很大比例时,T值才是0.5。
图2.2当S<1时,T值得到增强
举例来说,如果C是3天,V是4天,S为0.5,那么:
在这种情况下,即使C值达到了V值的75%,该比率不过才到50%而已。
图2.3展示了当S大于1时,T值的增长率相应变小的情况。在这种情况下,当C值为V值的50%时,T值将小于0.5。直到C值是V值的很小比例时,T值才达到0.5。
图2.3当S>1时,T值得到弱化
举例来说,如果C为3天,V是4天,S=2,那么
在这种情况下,当C值为V值的75%时,T值将会落到6%左右。
有的时候,将不同的信息或维度的评分合并起来很有用-举例来说,为某个数据质量仪表板创建一个指示器(Talburt, Campbell, 2006)。在这种组合评分中,其中一些评分可能会被给予比其它评分更高的比重。最简单的计算方式就是使用加权平均值的方法(Lee,et al, 2006):
当j=1,…n时分别为独立的评分,当j=1,…n时为每个评分相应的比重,因此所有该值的和应当为1:
除了DQ的评分算法,描述统计和推断统计中的标准技术也常常被用来衡量数据质量。如果数据量非常大,对集合中的所有记录都进行分析显得不那么实际,因此常常会对该数据进行采样分析。Fisher,et al. (2006) 中包含了使用统计学知识进行分析和估算的精彩评述以及大量的相关案例。
DQ的评分以及统计方法为数据质量提供了客观的度量,但DQ也还有主观度量的一面。由剑桥研究小组(Huang,Lee, Wang, 1999)进行的信息质量评估(Informationquality assessment, IQA)调查,针对Wang-Strong框架中的有关数据质量的16个维度,对系统的主要干系人进行询问,以了解他们对于此的认知。调查对象需要从1到10中选取一个值来代表其对每个维度的评分。
像IQA调查这样的主观衡量方法为了解信息质量的问题提供了多个角度的洞察。其中之一通过比较干系人组的评价调查反馈,被称为角色差距分析(role gap analysis) (Fisher, et al., 2006) 。举例来说,它可以显示出不同角色之间对于数据质量的认知的差异,比如经理和数据库管理员之间的区别,或是提供商和消费者之间的区别。每个角色组的评分平均值本身并没有太大的价值,只有在它与其它组的评分做比较时,才显示出它的作用。这种认知上的差异常常与组织级别的信息质量问题有关。这些分析还有另外一个作用,就是它可以指导我们下一步应该将分析的重点放在那些差异性较大的维度上。哪怕是最小程度的,数据质量的调查使得干系人开始思考有关信息质量的问题,并与其他干系人讨论,这至少使问题暴露出来,让大家注意到这些重要的问题。
还有一种在主观衡量中常常用到的,跟角色差距分析相似的方法是诊断方法(Pipino, Lee, Wang, 2002)。它将衡量结果分成四组,如图2.4:
图2.4主观 vs 客观评估
那些主观和客观评估得分都很低的维度或是信息记录会落入到左下角的方格Q3中。这些恐怕是需要解决的最高优先级的问题,毕竟主观评估得分较低,代表着干系人一致认同该维度的低质量。相应的,那些落入在右上角方格Q2中的问题会有较低的优先级。至于Q1和Q4中的内容,则需要进一步调研,为何它们的主观和客观评估得分会如此的不一致。
这些工具和技术对于解决数据质量问题十分重要,同时也为后续工作的有限顺序提供了证据。除了这些之外,还有以下几种技术也常常被用到: 效益成本矩阵,权重排列,流程影响,低质量数据成本,以及成本效益分析(McGilvray,2008)。
数据质量评估对于描述数据的状况十分有用,但其结果并非信息质量本身。下面的例子阐述了这个观点:为了提升销量,一家公司每隔一段时间便会通过邮件像客户发某些特定产品的优惠券。该公司也会通过统计利用这些优惠券的人数来考量这种销售活动的有效性。假设在这其中的一次活动之后,公司付出了很大的精力来完善那些丢失或不准确的客户信息。数据质量评估结果显示,所有客户的姓名的完整度仅有80%,而且有30%的客户电话号码是错误的。基于这样的发现,公司采取一定的措施来进行弥补,并使得客户姓名完整度达到90%,电话号码准确率从70%上升到85%。
在这次数据质量提升之后,公司又进行了一次销售活动。然而十分不幸的是,这次活动的效果竟然和数据未提升之前完全一样。这说明了尽管数据质量提升了,对于公司的信息产品应用来讲,并没有能够为公司提供更多的价值,因此信息质量并没有提升。
信息质量缺口
重新审视这次销售活动,虽然我们对数据质量进行了有效的评估,并且付出许多精力来对数据质量进行优化,然而,这其中有一点却被忽略了:即究竟哪些数据和维度会对该信息产品的价值产生最大的影响?只有对这些数据和维度的提升,才能够真正的提高信息的质量。在这个例子当中,很有可能即使客户的姓名写错了,他们依然还是可以收到邮寄的优惠券。而消费者的电话号码与这样的直邮活动并没有什么太大的关系。相应的,如果我们能够提高消费者的家庭住址的完整性和准确性,我们便很有可能对产品的价值产生正向的影响。
图2.5试图描述这个叫做信息质量缺口(IQ Gap)的问题。在图中描述的信息系统中,数据被以信息产品的形式组织起来,并被分发到各个应用中以供使用。这里的缺口存在于当系统没有能够搞清楚数据产品中究竟应该包含哪些数据的特征,才能够提供最高的信息质量 – 即应用该信息产品所能产生的价值。
图2.5信息质量缺口
遗憾的是,大多数组织在选择所用的数据特征时,依然是根据数据特征的易衡量程度来做出的。普通规模的信息系统中通常都会有数以千计的元素,维度以及形式组合在一起来定义数据的质量度量。而对于信息质量来说,最重要的任务就是找出对于某个特定的信息产品或应用,究竟数据的哪些部分对其最为重要。就像统计学家需要进行因子分析以便找出对于依赖变量影响最大的独立变量一样,IQ分析员也需要反向的从应用中找出那些为信息产品产生最大价值的元素和维度。
在IAIDQ的信息质量框架中的第三个领域所定义的正是为了解决这些问题而要准备的知识和技术。能够设计出好的数据质量评分固然是十分有帮助的,而具备理解和量化组织中的数据质量问题也同样具备价值。
信息产品图
为了解决信息产品缺口,一个有用的工具称为信息产品图(Information Product Map, IP-Map)。该工具通过跟踪每条数据元素从源文件获取到进入最终产品的流程,将其中所有细节以一种系统的方式展示出来(Lee,et al., 2006; Shankaranarayanan, Zaid, Wang, 2003; Ballou, Wang, Pazer, Tayi,1998; Pierce, 2005) 。 图2.6展示了信息产品图的部分特点:
图2.6一个简单的信息产品图
该图开始于两个数据源文件,它们被分别以数据集1和2读入系统。紧接着被放入第一个处理流程的当中,并输出为一个新的数据集3。 数据集3会经过一个质量检查模块,两边的括号表示一个业务边界:说明该检查是针对数据集3的一个拷贝。最终,数据集3会被归入到数据池1中,即目标信息产品。信息产品图跟传统的数据流图十分相似,唯一的区别在于信息产品图关注在数据需求而非操作需求和规格。信息产品图还可以被用在多系统环境中,并通过某种方式指明数据是否越过某个界限,而数据流图通常只针对单一系统。