缺失值
在数据挖掘工作中,数据往往会出现有部分缺失值,因此缺失值填补属于数据处理的重要部分。
一、使用skearn进行缺失值填补
函数介绍:
sklearn.impute.SimpleImputer(missing_values=nan,strategy='mean',fill_value = None,copy=True)
参数 | 含义与输入 |
---|---|
missing_values | 缺失值的格式,默认为np.nan |
stratege | 填补缺失值的策略,默认为均值;mean代表均值,median代表中值,most_frequent代表众数,constant代表常数 |
fill_values | 在填补常数时,设置常数的值,默认为0 |
copy | 是否创建特征矩阵的副本,默认为True |
代码:
#以均值填补为例
#导入sklearn填补缺失值的包
from sklearn.