机器学习缺失值处理

分类:
完全随机缺失:当某变量缺失值发生的可能性与其他变量无关也与该变量自身无关,例如婚姻状态的缺失
随机缺失:当某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关时,例如配偶姓名的缺失取决于是否有配偶
完全非随机缺失:某变量只与自身有关,缺失值依赖于自己,例如高收入人群
不愿意提供家庭收入;例如,公司新录用了20名员工,由于6名员工表现较差在试用期内辞退,试用期结束后的表现评定中,辞退的6名员工的表现分即为非随机缺失。
处理方法:
1.删除有缺失值的属性或者样本
2. 插补填充(常用于完全随机缺失且缺失度不高的情况)
3.将缺失值当成一种属性(适用于完全非随机缺失)

连续变量缺失值处理:

类别变量缺失值处理:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值