缺失值填充+类别特征处理（encode+dummy）+特征缩放+数据清洗

最新推荐文章于 2022-11-04 20:24:16 发布

Lzj000lzj

最新推荐文章于 2022-11-04 20:24:16 发布

阅读量1.5k

点赞数

分类专栏：数据预处理

本文链接：https://blog.csdn.net/Lzj000lzj/article/details/90599619

版权

本文探讨了如何处理数据集中的缺失值，根据比例选择填充平均值、众数或使用模型预测。同时介绍了类别特征的处理，推荐使用pandas的get_dummies进行onehot编码，并讨论了编码后可能遇到的稀疏矩阵问题。还涉及特征缩放的重要性，以及数据清洗的几个关键步骤，包括数值替换和数据清除。

摘要由CSDN通过智能技术生成

缺失值填充

如果missing value占总体的比例非常小，那么直接填入平均值或者众数
如果missing value所占比例不算小也不算大，那么可以考虑它跟其他特征的关系，如果关系明显，那么直接根据其他特征填入；也可以建立简单的模型，比如线性回归，随机森林等。
如果missing value所占比例大，那么直接将miss value当做一种特殊的情况，另取一个值填入

SimpleImputer(missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)
1. missing_values:number，string,nan
2. strategy:mean,median,most_frequent,constant
3. fill_value:constant的情况下的填充值


#均值填充
>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]
>>> print(imp_mean.transform(X))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]
#中位数填充
import numpy as np
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='median')
imp_mean.fit([[7,