大数据----数据质量检测

1.在我们进行数据分析之前要对数据进行检测,数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。

2.完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评估标准。数据质量的完整性比较容易去评估,一般可以通过数据统计中的记录值和唯一值进行评估,例如:通过日志访问量数据得到平时日平均访问量在500万左右,某一天突然降低到50万,这是就要检查一下数据是否存在缺失了,再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了 32 个省和直辖市,如果统计得到的唯一值小于 32,则可以判断数据有可能存在缺失。

3.一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是 11 位的数字,IP 地址一定是由 4 个 0 到 255 间的数字加上.组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如 PV(页面访问量) 一定是大于等于 UV(用户唯一访问量) 的,跳出率一定是在 0 到 1 之间的。

4.准确性是指数据记录的信息是否存在异常或错误。存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误如乱码。其次,异常的大或者小的数据也是不符合条件的数据。数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。

一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断,如果一些少量数据存在明显的准确性问题以及明显的格式字段缺失我们则要考虑把这些数据删除。

5.及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义,及时性在大数据离线项目里面影响关系不大,但是对于大数据实时的项目则有很大的影响。

  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值