缺失数据预处理

1. 保留缺失数据不予处理:

不对缺失数据做任何处理

2. 直接丢弃含缺失数据的记录,

也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表.

个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法,也是很多统计软件(如SPSS)默认的缺失值处理方法。

注意:

如果缺失值所占比例比较小,这一方法十分有效。

至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。

局限性:

  以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。
  当缺失数据所占比例较大,特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。

3. 特殊值填充:

将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值.如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离, 不推荐!

A. 用平均值来代替所有缺失数据
B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
C.用回归、贝叶斯形式化方法或判定树归纳确定,这些方法直接处理的是模型参数的估计而不是空缺值预测本身.与前面的方法相比,它使用现存数据的多数信息来推测空缺值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值