一.数据缺失
对缺失数据进行补全(原文链接:https://www.cnblogs.com/jiaxin359/p/8594640.html)
1:人工填充:根据已经掌握的数据的知识进行填充,但是这个方法在数据量很大,缺失值很多的时候明显是不可以的。
2:特殊值填充:将缺失值用unknown表示,这和原来的缺失值的意思还是有一点差别的。在这里unknown可以当做一种取值的可能性。
3:平均值填充。 对于数字类型的变量,可以使用没有缺失值的一些信息进行估计,使用用平均值进行的估计称为平均值填充。对于分类变量可以使用众数来进行填充。其实也可以加上一点方差的信息来进行估计,我在后面的例子当中来说明这一点。
4:将数据映射到高维,第二个参考文章。这个方法有点暴力,使得特征的数量大大的增加,但是保留原始数据的全部信息。
5:使用其它的变量来进行预估。 这里的方法就多了,包括文章中讲的回归,期望最大化方法和C4.5方法。这里因为都没有接触过,就不写了。
python处理:https://blog.csdn.net/weixin_33909059/article/details/86935677
2.异常数据(噪声数据、离群点)
数据噪声指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。通常表现为离群点。
文章:https://www.jianshu.com/p/389682aa5429
https://blog.csdn.net/weixin_42144636/article/details/81584372
https://blog.csdn.net/wangyangzhizhou/article/details/83854951
https://blog.csdn.net/lishangyin88/article/details/71189358
https://www.cnblogs.com/xiaohuahua108/p/6237906.html
3.评价指标类型的一致化处理
在已建立的指标体系中,指标集可能同时含有“极大型”和“极小型”指标,也存在“中间型”指标。因此在评价之前必须将评价指标的类型进行一致化处理,即要统一化为极大型指标。
关于具体的一致化处理过程见《数学建模方法及其应用》的213和214页。
此类处理一般在评价问题中,常用于主成分分析法和层次分析法的模型中。