python 对数据集的缺失值补全方法 sklearn.preprocessing.Imputer

最新推荐文章于 2024-05-06 23:05:21 发布

csdn-WJW

最新推荐文章于 2024-05-06 23:05:21 发布

阅读量8.1k

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/sdnuwjw/article/details/93378795

版权

Machine Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、官方说明

sklearn.preprocessing.Imputer 用于对数据中的缺失值进行补全，支持“均值（mean）”、“中值（median）”、“众数（most_frequant，也就是mode）”三种数值替换数据集中的缺失值（numpy.nan、NaN等）

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html

参数：

（1）missing_values：可选参数，整数或“NaN”，默认为“NaN”，对于编码为 np.nan 的缺失值，使用字符值"NaN"

（2）strategy：可选参数，替换的目标数值，支持“均值（mean）”、“中值（median）”、“众数（most_frequant，也就是mode），默认为平均值

（3）axis：可选参数，整数，支持“沿列（0）或沿行（1）计算 strategy 中使用的替换值”，默认为

（4）verbose：可选参数，整数，默认为 0

（5）copy：可选参数，布尔值，默认为 True

方法：

（1）fit(self, X[,y])：在数据集上拟合插值器

（2）fit_transform(self, X[,y])：拟合数据，并转换

（3）get_params(self[,deep])：获得该插值器的参数

（4）set_params(self,\*\*params)：设置该插值器的参数

（5）transform(self,X)：插值数据集 X 中的缺失值

2、实例

from sklearn.preprocessing import Imputer
import numpy as np

imputer = Imputer(missing_values='NaN', strategy="mean", axis=0)

duty_data = [[1,2,np.nan],[4,5,6],[7,np.nan,9],[10,11,12],[np.nan,14,15]]

imputed_data = imputer.fit_transform(duty_data)

print(imputed_data)

[[ 1.   2.  10.5]
 [ 4.   5.   6. ]
 [ 7.   8.   9. ]
 [10.  11.  12. ]
 [ 5.5 14.  15. ]]

csdn-WJW

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
python 对数据集的缺失值补全方法 sklearn.preprocessing.Imputer

1、官方说明sklearn.preprocessing.Imputer 用于对数据中的缺失值进行补全，支持“均值（mean）”、“中值（median）”、“众数（most_frequant，也就是mode）”三种数值替换数据集中的缺失值（numpy.nan、NaN等）https://scikit-learn.org/stable/modules/generated/sklearn.prep...
复制链接

扫一扫