python 对数据集的缺失值补全方法 sklearn.preprocessing.Imputer

1、官方说明

sklearn.preprocessing.Imputer 用于对数据中的缺失值进行补全,支持“均值(mean)”、“中值(median)”、“众数(most_frequant,也就是mode)”三种数值替换数据集中的缺失值(numpy.nan、NaN等)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html

参数:

(1)missing_values:可选参数,整数或“NaN”,默认为“NaN”,对于编码为 np.nan 的缺失值,使用字符值"NaN"

(2)strategy:可选参数,替换的目标数值,支持“均值(mean)”、“中值(median)”、“众数(most_frequant,也就是mode),默认为平均值

(3)axis:可选参数,整数,支持“沿列(0)或沿行(1)计算 strategy 中使用的替换值”,默认为

(4)verbose:可选参数,整数,默认为 0

(5)copy:可选参数,布尔值,默认为 True

方法:

(1)fit(self, X[,y]):在数据集上拟合插值器

(2)fit_transform(self, X[,y]):拟合数据,并转换

(3)get_params(self[,deep]):获得该插值器的参数

(4)set_params(self,\*\*params):设置该插值器的参数

(5)transform(self,X):插值数据集 X 中的缺失值

2、实例

from sklearn.preprocessing import Imputer
import numpy as np

imputer = Imputer(missing_values='NaN', strategy="mean", axis=0)

duty_data = [[1,2,np.nan],[4,5,6],[7,np.nan,9],[10,11,12],[np.nan,14,15]]

imputed_data = imputer.fit_transform(duty_data)

print(imputed_data)

[[ 1.   2.  10.5]
 [ 4.   5.   6. ]
 [ 7.   8.   9. ]
 [10.  11.  12. ]
 [ 5.5 14.  15. ]]

 

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

csdn-WJW

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值