[特征工程]--缺失值处理

最新推荐文章于 2022-11-25 09:47:56 发布

baidu-liuming

最新推荐文章于 2022-11-25 09:47:56 发布

阅读量2.7k

点赞数

分类专栏：机器学习文章标签：缺失值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fisherming/article/details/80105891

版权

机器学习专栏收录该内容

40 篇文章 3 订阅

订阅专栏

目前常用的三类处理方法：
1. 用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。
2. 先根据欧式距离或Pearson相似度，来确定和缺失数据样本最近的K个样本，将这K个样本的相关feature加权平均来估计该样本的缺失数据。
3. 将变量映射到高维空间
a.对于离散型变量：男、女或缺失的情况，采用One-hot编码，映射成三个变量，是否男、是否女、是否缺失；
b.对于连续型变量，首先对连续变量进行变量分箱，采用一定的数据平滑方式(平均值/中值/箱边界)进行离散化，然后增加是否缺失这种维度。
比如淘宝的推荐系统，动辄高达几亿维度的变量。这样做的好处就是保留的原始数据的大部分信息，不用考虑缺失值的问题，缺点是计算量大大提升。只有在样本量非常大的时候效果还好，否则会因为数据过于稀疏，效果很差。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。