承接上文:数据分析之缺失值处理
缺失值处理
1)删除
删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内);
或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);
2)替换
直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值;
其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降;
3)插补
利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作预测;
其优势在于预测的准确性高;缺点是需要大量的计算,导致缺失值的处理速度大打折扣。
缺失值——替换处理