Python数据分析与可视化笔记 四 数据质量 评估标准 完整性、一致性、准确性、及时性

典型的数据质量评估标准有4个要素:完整性、一致性、准确性和及时性。

完整性

        完整性指的是数据信息是否存在缺失的情况,一般可以通过数据统计中的记录值和唯一值进评估。

一致性

        一致性是指数据是否符合规范,数据集合内的数据是否保持了统一的格式。数据质量的一致性主要体现在数据记录是否符合规范和数据是否符合逻辑。数据记录的规范主要是指数据编码和格式。如果数据记录格式有标准的编码规则,那么对数据记录的一致性检验就比较简单,只要验证所有的记录是否满足这个编码规则就可以了。一致性中逻辑规则的验证较为复杂。

准确性

        准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,导致一致性问题的原因可能是数据记录规则不同,但不一定是错误的,而存在准确性问题的数据不仅仅只是原则上的不一致,准确性关注数据中的错误,最为常见的准确性错误如乱码。准确性问题可能存在于个别记录,也可能存在于整个数据集。

及时性

及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对数据分析本身来说要求并不高,但如果数据分析周期加上数据建立的实践过长,就可能导致分析得出的结论失去了借鉴意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值