1. 保留缺失数据不予处理:
不对缺失数据做任何处理
2. 直接丢弃含缺失数据的记录,
也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表.
个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法,也是很多统计软件(如SPSS)默认的缺失值处理方法。
注意:
如果缺失值所占比例比较小,这一方法十分有效。
至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。
局限性:
以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
当缺失数据所占比例较大,特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
3. 特殊值填充:
将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值.如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离, 不推荐!
A. 用平均值来代替所有缺失数据
B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
C.用回归、贝叶斯形式化方法或判定树归纳确定,这些方法直接处理的是模型参数的估计而不是空缺值预测本身.与前面的方法相比,它使用现存数据的多数信息来推测空缺值