数据分析的可靠性的一个最基本的前提是数据的质量要有保证,那我们如何衡量数据的质量呢?主要从以下四个方面:准确性,一致性,完整性和及时性。
1、准确性
就是要反映事实情况,比方说用户的生日是XX,如果说这个数据是准确的,那就得保证这个用户的生日就是XX。数据的准确性是第一位的,而往往要保证数据准确需要不同程度的代价,需要什么程度的准确度需要和数据的重要性进行权衡。
2、一致性
客户是什么?有人会认为这个问题很好回答,但是在很多的组织中,不同的部门有不同的,通常是相冲突的回答。我们需要定义数据名称的含义,确保每个人的理解是一致的。
3、完整性
不完整的数据和错误的数据一样有问题,我们需要的字段都有了吗?我们需要的时间范围都满足了吗?不同产品的数据都有了吗?每个用户的数据都有了吗?
4、及时性
就是要保证数据是最新的,而不是在更新之前的。
转自:http://haonan917.blog.163.com/blog/static/873591452009101261347703/