KNN的数据插补方法总结

sklearn中的KNN在缺失值填补中的用法

参考链接:K近邻填补缺失值

如果缺失值是离散的,使用K近邻分类器,投票选出K个邻居中最多的类别进行填补;如果为连续变量,则用K近邻回归器,拿K个邻居中该变量的平均值填补。

涉及到的参数: KNN的K;weights-样本的权重,使用distance表示,distance为用样本间的距离(默认欧式距离),样本间距离越近越”重要“

过程:如有下图这样一段数据,999表示X1中的缺失值,NaN表示X2中的缺失值。在对X1列中的缺失数据进行插补时,选择出其他不存在缺失值的列(X0、X3),同时去除掉X1列存在缺失值的行(2、7),然后计算距离,因为是离散值,所以选择K项中的最多类进行填补。对于X2的插补类似,只是将投票选出最多类改为计算K个邻居的平均值进行填补。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值