缺失值需要处理吗

现实应用中,经常会遇到属性值“缺失”(missing)现象
只使用没有缺失值的样本/属性 ?
会造成数据的极大浪费

一、在逻辑回归等需要计算综合值时,缺失值需要处理(分箱时用特殊值替换,然后单独分一箱)

在使用scikit-learn中缺失值需要填充处理。

二、XGboost,LightGBM工具库内部很完善,对缺失值已经做过相应处理。
三、在决策树中,如果使用带缺失值得样例,需解决几个问题:

1.如何进行划分属性的选择?
2.给定划分属性,若样本在属性上的值缺失,如何进行划分
基本思路:样本赋权,权重划分
在这里插入图片描述

四、SVM对缺失值很敏感,所以要先填充缺失;对异常值不敏感,只关注支持向量。
五、缺失值填充
1. 描述性统计

数值型变量
在这里插入图片描述
分类型变量
在这里插入图片描述
在这里插入图片描述

2.填补缺失

除了fillna(), 直接均值填充外,还有新的思路
在这里插入图片描述
在这里插入图片描述
考虑性别因素,分别用男女乘客各自年龄的中位数来填补
在这里插入图片描述
同时考虑性别和舱位因素
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值