缺失值需要处理吗

最新推荐文章于 2024-04-19 00:00:00 发布

滴水-石穿

最新推荐文章于 2024-04-19 00:00:00 发布

阅读量2.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34971932/article/details/103305447

版权

现实应用中，经常会遇到属性值“缺失”(missing)现象
只使用没有缺失值的样本/属性？
会造成数据的极大浪费

一、在逻辑回归等需要计算综合值时，缺失值需要处理（分箱时用特殊值替换，然后单独分一箱）

在使用scikit-learn中缺失值需要填充处理。

二、XGboost，LightGBM工具库内部很完善，对缺失值已经做过相应处理。

三、在决策树中，如果使用带缺失值得样例，需解决几个问题：

1.如何进行划分属性的选择？
2.给定划分属性，若样本在属性上的值缺失，如何进行划分
基本思路：样本赋权，权重划分
在这里插入图片描述

四、SVM对缺失值很敏感，所以要先填充缺失；对异常值不敏感，只关注支持向量。

五、缺失值填充

1. 描述性统计

数值型变量
在这里插入图片描述
分类型变量

2.填补缺失

除了fillna(), 直接均值填充外，还有新的思路
在这里插入图片描述

考虑性别因素，分别用男女乘客各自年龄的中位数来填补

同时考虑性别和舱位因素

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。