数据分析 - 基础原理 之 第三章:数据质量管理 - 第四节:数据核查方法

目录

1.数据核查

(1)数据核查内容

(2)数据核查方法

(3)各数据载体的注意事项


1.数据核查

不管做什么事件好,都要先确定事件的内容或对象,然后才是做事方法;同理,先要落实数据核查的内容是什么。

(1)数据核查内容

  • 行列页:行数、列数 、各列数值类型、sheet页数

  • 异常值:检查各列的值类型及值范围,找出异常值,异常值一般是 离群点 或  不同类的值 等

  • 特殊字符:非英语言、单双引号、其他标点符号、表情符号、乱码

  • 缺失值:NULL NAN None \N 空值

  • 重复值:唯一值字段 / 互斥字段 检查重复值

  • 数值范围:根据业务及实际情况 检查 字段值,如长宽高与价钱等这类字段应有合理值范围,该点最耗时间

除此外,还有数据长度检查、数据跨表一致性检查等.

(2)数据核查方法

  • 整体核查:行数、列数、各列数值类型是否合要求,是否有过长的行

  • 找异常值方法:按值排序、按值长度排序

  • 特殊字符:替换所有数字(0-9) 以及 所有字母(a-z-A-Z)后,值的长度是否为0

  • 缺失值:对 NULL NAN None \N 空值 逐列筛选

  • 重复值:去重后的行数 与 原来行数是否一致

  • 业务值:按值排序

(3)各类数据载体的注意事项

  • xlsx/csv:全是数字且以0开头,0会被去掉,若有该情况不要以excel打开且保存文件
  • xlsx/csv:  全是数字且过长,会用科学记数法表示,需右键选择 "设置单元格格式" ->"自定义" -> "0"
  • 持续更新中......
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值