数据预处理 第4篇:数据预处理(sklearn 插补缺失值)

由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃包含缺失值的整个行和/或列,但是,这是以丢失有价值的数据为代价的(即使数据不完整),更好的策略是估算缺失值,从数据的已知部分推断出缺失值,这就是插补(imputation)。

单变量插补法(univariate imputation),仅使用第i个特征维度中的非缺失值来插补第i个特征维度中的值。相比之下,多变量插补算法(multivariate imputation)会使用整个可用特征维度集来估算缺失值。

一,单变量插补

在sklearn包中,使用SimpleImputer估算器来实现单变量插补,单变量插补的处理策略(由strategy参数制定)有四个:mean,median,most_frequent和constant(搭配fill_value参数使用)。其中,mean和median分别表示使用均值和中位数来插补缺失值;对于定性数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

悦光阴

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值