1、处理重复数据
1、函数法
B:countif(A:A,A2) 结果是A2在所有结果中出现的次数;
A776477 一共在列中出现两次
C:countif(A$2:A3,A3) 结果是在A2-A3 中 A3 第几次出现
2、高级筛选法
3、条件格式法
4、透视表
5、删除重复值
2、处理缺失数据
表格里,缺失值最常见的表现形式就是控制或者错误标识符,可以接受的缺失值在10%以下;
1、定位
处理缺失值的四种方法:
- 用样本统计量的值代替缺失值。典型的是用样本平均值代替,如果是分类数据可以用众数代替;
- 用统计模型计算出来的值去代替缺失值;常见的O型有回归模型、判别模型等;
- 将有缺失值的记录删除
- 将缺失值作为另一个类别;
- 保留记录
缺失值填充快捷键:ctrl+G 定位空白单元格后使输入数据,然后ctrl+Enter 就可以将所有空白纸填充
2、 查找替换
3、数据一致性(数据逻辑错误)
- 利用IF函数检查错误
- 利用条件格式标记错误
参考:《谁说菜鸟不会数据分析》