目录
1.数据核查
不管做什么事件好,都要先确定事件的内容或对象,然后才是做事方法;同理,先要落实数据核查的内容是什么。
(1)数据核查内容
-
行列页:行数、列数 、各列数值类型、sheet页数
-
异常值:检查各列的值类型及值范围,找出异常值,异常值一般是 离群点 或 不同类的值 等
-
特殊字符:非英语言、单双引号、其他标点符号、表情符号、乱码
-
缺失值:NULL NAN None \N 空值
-
重复值:唯一值字段 / 互斥字段 检查重复值
-
数值范围:根据业务及实际情况 检查 字段值,如长宽高与价钱等这类字段应有合理值范围,该点最耗时间
除此外,还有数据长度检查、数据跨表一致性检查等.
(2)数据核查方法
-
整体核查:行数、列数、各列数值类型是否合要求,是否有过长的行
-
找异常值方法:按值排序、按值长度排序
-
特殊字符:替换所有数字(0-9) 以及 所有字母(a-z-A-Z)后,值的长度是否为0
-
缺失值:对 NULL NAN None \N 空值 逐列筛选
-
重复值:去重后的行数 与 原来行数是否一致
-
业务值:按值排序
(3)各类数据载体的注意事项
- xlsx/csv:全是数字且以0开头,0会被去掉,若有该情况不要以excel打开且保存文件
- xlsx/csv: 全是数字且过长,会用科学记数法表示,需右键选择 "设置单元格格式" ->"自定义" -> "0"
- 持续更新中......