.数据预处理
所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据,都会严重地影响结 果的正确性。此外,带单位的数据也需要通过无量纲处理以减少单位对计算的影响。因此正确的数据预处理是前期值得关注的任务。
2.缺失数据
(1)均值填充法
如果缺失值是数值型的,就根据该属性在其他所有对象取值的平均值来填充该缺失的属性值,比如年龄、距离等属性。
如果缺失值是非数值型的,就根据统计学中的众数原理,用该属性在其他所 有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。比如
性别、类别等属性。
(2)就近补齐法
对于一个包含缺失值的对象,就近补齐法在完整数据中找到一个与它最相似 的对象, 然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标
准来对相似进行判定。该方法的难度在于如何定义相似标准,主观因素较多。
(3)聚类填充法
聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或 簇,同一类的数据尽可能聚集到一起,不同类数据尽量分离,使得同一个簇内的 数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能 地大。把数据分好类后可以在每个类别中处理缺失值,最经典的聚类算法是K- 近邻算法 (KNN) , 建议同学们在使用时根据数据属性合理选择距离和K(类别)
个数。
(4)回归方程法
用不含缺失值的数据集建立回归方程,把缺失值的点代入回归方程即可预测 缺失值,在具体使用时应该注意要留出一部分数据验证你的回归方程的准确性
(建议测试数据比例20%)。