1 数据的预处理
1.1 缺失值处理
缺失值就是由某些原因导致部分数据是空的,对于为空的这部分数据我们一般是有两种处
理方式的,一种是做删除处理,即把含有缺失值的数据删除;另一种是做填充处理,即把缺失
的那部分数据用某个值代替。
1.1.1 缺失值删除
当某属性完全缺失或者缺失值过多并且缺失值填充会导致结果不准确时即可将此缺失值删
除,此做法可能会对结果造成作负影响,故应当尽量避免删除缺失值。
1.1.2 缺失值填充
当某属性缺失值并不多,一般会采用缺失值填充的方法。缺失值填充最常用的有三种方
法:
1.
平均值填充
平均数填充缺失值是处理数据中缺失值的一种简单而常见的方法。这种方法的核心思想是
用数据集中已有值的平均数来填补缺失的数据点。这种方法特别适用于处理那些缺失值不是特
别多,且数据集整体分布相对均匀的情况。
使用平均数填充缺失值有其优点也有缺点。优点是操作简单、快速,特别是在数据预处理
阶段,能快速解决缺失值问题,让数据集完整,以便进行后续的分析。缺点是平均值很容易被
极值或离群值所影响。
2.
中位数填充
在处理数据时,使用中位数来填充缺失值是一种常见的策略,尤其适用于数值型数据。这
种方法有助于保持数据的中心趋势,同时减少极端值的影响。
使用中位数填充缺失值的优点主要在于其对异常值的抗干扰能力强。相对于平均数,中位
数不易受到极端值的影响,因此当数据包含异常值或分布偏斜时,使用中位数作为填充值是较
为合适的选择。
然而,这种方法也有局限性,它可能不适用于所有情况。例如,对于类别型数据,使用中
位数填充可能无法应用。此外,如果数据缺失不是随机发生的,那么用中位数填充可能会引入
偏差,影响后续的数据分析和建模结果。
综上所述,使用中位数填充缺失值是一种简单有效的方法,适合于处理数值型数据中的缺
失值,尤其是在数据受到异常值影响或分布不均匀时。然而,选择这种方法前,应先评估数据
的特性和缺失值的模式,以确保方法的适用性和有效性。
3.
众数填充
使用众数来填充缺失值是处理包含缺失值的数据集的另一种常见方法,特别是针对类别型
数据。众数是数据集中出现次数最多的值,因此,这种方法尤其适用于填充那些非数值型的变
量缺失值。
众数填充的主要优点是它保持了数据的一致性,特别是对于类别数据,可以确保填充的值
在原始数据中确实存在。此外,这种方法简单直接,易于实施。
1
然而,众数填充也有其局限性。例如,对于分布较为均匀的变量,众数可能不够代表性;
而对于数值型变量,众数填充可能不如中位数或平均数填充那样有效。此外,如果一个变量的
众数不是很明显(即很多值都有相似的出现频率),那么选择哪个值作为众数可能就比较主观,