特征预处理和特征生成 (三)缺失值的处理

最新推荐文章于 2023-11-15 22:13:29 发布

潜心修行的研究者

最新推荐文章于 2023-11-15 22:13:29 发布

阅读量3.6k

点赞数

分类专栏：数据处理与挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h2026966427/article/details/80163785

版权

一，填充缺失值

填充NaN的方法要取决于特定情况！
填充缺失值常用的方法有以下三种：

将NaN替换为一个常数，如-1，-999等等。
这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。
将NaN替换为均值或者中位数、众数等。
这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言，首先选择缺失值的对象可能会更困难。
通过已有的值构建出缺失值的值，例如可以专门通过一个模型来预测缺失值。
一些模型自带缺失值处理功能，不用专门再处理缺失值，如XGBoost和CatBoost。

需要注意的是有时候缺失值已经被组织者替换了！

二，利用缺失值生成新特征

通常情况下，在特征生成之前要避免填充NaNs！

1，二值特征isnull可能会很有用，它指明了哪些特征是缺失值，可以看做一个类别特征。

在计算平均值或中位数时，这种方法可以解决树和神经网络的问题。但是这样做的缺点是我们会在数据集中增加两倍的列数。

2，我们想用数

最低0.47元/天解锁文章

潜心修行的研究者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
特征预处理和特征生成 (三)缺失值的处理

一，填充缺失值填充NaN的方法要取决于特定情况！填充缺失值常用的方法有以下三种：将NaN替换为一个常数，如-1，-999等等。这种方法可以认为是将缺失值看成了一个单独的类别。这种方法的缺点是线性网络的性能会受到影响。将NaN替换为均值或者中位数、众数等。这种方法通常对简单线性模型和神经网络有益。但是对基于树的模型而言，首先选择缺失值的对象可能会更困难。通过已有的值构建出缺...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。