一 、数据清理
检查数据质量的重要性
除了在建立模型之前需要完成数据清理,在对数据结构的探索和对模型的描述和预测过程中都需要不断检查数据质量
探索的过程中,出现任何异常情况都需要解释和处理。
比如分类变量应该注意频率特别低的类别,它可能是错误分类或者原本属于相邻类别的数据
1.缺失值处理
1.1判断缺失值的方法
sum(is.na(x)) NA的总个数
sum(complete.cases(x)) 完整观测的总个数
mice包 md.pattern()
1.2处理缺失值的方法
删除:删除观测样本,删除变量,使用原始完整数据,改变权重
改变权重:通过对完整数据按照不同的权重进行加权,可以降低删除数据带来的偏差