缺失值填充+类别特征处理(encode+dummy)+特征缩放+数据清洗

本文探讨了如何处理数据集中的缺失值,根据比例选择填充平均值、众数或使用模型预测。同时介绍了类别特征的处理,推荐使用pandas的get_dummies进行onehot编码,并讨论了编码后可能遇到的稀疏矩阵问题。还涉及特征缩放的重要性,以及数据清洗的几个关键步骤,包括数值替换和数据清除。
摘要由CSDN通过智能技术生成
缺失值填充
  1. 如果missing value占总体的比例非常小,那么直接填入平均值或者众数
  2. 如果missing value所占比例不算小也不算大,那么可以考虑它跟其他特征的关系,如果关系明显,那么直接根据其他特征填入;也可以建立简单的模型,比如线性回归,随机森林等。
  3. 如果missing value所占比例大,那么直接将miss value当做一种特殊的情况,另取一个值填入
SimpleImputer(missing_values=nan, strategy=’mean’, fill_value=None, verbose=0, copy=True)
1. missing_values:number,string,nan
2. strategy:mean,median,most_frequent,constant
3. fill_value:constant的情况下的填充值


#均值填充
>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]
>>> print(imp_mean.transform(X))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]
#中位数填充
import numpy as np
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='median')
imp_mean.fit([[7,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值