数据质量VS信息质量
最近在阅读的时候一直对数据质量和信息质量这两个词非常的困惑,Google之后对它们的区别做了一个整理。
数据是数字化的事实,比如考试分数为95分。所以数据质量的第一要素为正确性,如果95分被错误地输入为65分,那就会称为Bad Data。
数据质量的另一个关注点是数据和所定义的数据规范之间的一致性,我们希望收集用户的地址信息,但返回的是用户地址的经纬度,即使非常准确也会 被视为低质量数据,因为我们需要额外的工作对其转换。ISO8000中对数据质量还有另外一个要求,就是数据的可移植性,数据应该是独立于软件的,它能被任意的软件使用。
如上图所示,信息是数据被处理后的结果,它和数据的区别在于它包含了逻辑上的意义。还以95分的考试分数为例,通过分析所有人在这一科目的成绩,我们发现95分是目前为止最高的分数。这一信息就提供了额外的意义/价值,可以帮助我们进一步的做出决策。
那信息质量又是什么概念呢,信息质量指的是信息产品提供的内容的质量,或者说是所提供信息的适用性。
以一个数据分析处理公司为例,数据质量是用来衡量它所接收的待处理数据的。而当它完成了数据的处理返回给客户时,客户唯一关心的是它从结果中所能获得的价值,这时数据质量不应该再是一个衡量手段&#