我的scikit-learn学习6.23

1 填补数据缺失值

from sklearn.impute import SimpleImputer

1.1 用mean或0填补

#采用mean值
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy="mean")
x_missing_mean = imp_mean.fit_transform(x_missing) #训练并填补
#采用0填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0)
x_missing_0 = imp_0.fit_transform(x_missing)

1.2 随机森林填补

标签和特征之间存在联系时,可以相互转换,比如:可以利用a1,a2来预测a3,也可以用a2和a3来预测a1。标签是不存在缺失值的,在转换时,若特征T(比如a1)有缺失值,则可以将没有缺失值的部分作为Ytrain,其他部分可用来进行预测。
原标签+ 特征T的无缺失值部分对应的另外n-1个特征:X_train
特征T的无缺失值:Y_train
从信息缺失最少的特征开始,对所有特征进行上述步骤的遍历,数据逐渐走向完整。进行一个特征填补时,其他特征的缺失值用0代替。

#特征按缺失值的量由小到大排序,返回索引
sortindex = np.argsort(x_missing_reg.isnull().sum(axis=0)).values
#每次循环,x_missing_reg中就有一个特征的缺失值被填充完毕。
for i in sortindex:
    #有缺失的原始特征矩阵
    df = x_missing_reg
    #新标签
    fillc = df.iloc[:,i]
    #新特征矩阵,y_full为原始标签
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)
    #新特征矩阵缺失值填0
    df_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0).fit_transform(df)
    #特征T的非空部分
    Ytrain = fillc[fillc.notnull()]
    #需要Ytest所带的索引,去选出Xtest
    Ytest = fillc[fillc.isnull()]
    #特征T的非空部分所对应的其他特征矩阵
    Xtrain = df_0[Ytrain.index,:]
    #特征T的空值部分所对应的其他特征矩阵
    Xtest = df_0[Ytest.index, :]
    #随机森林回归预测缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)
    #填补预测得到的特征值
    x_missing_reg.loc[x_missing_reg.iloc[:,i].isnull(), i] = Ypredict

对三种不同填补方式进行效果比较

#交叉验证结果对比
X = [x_full, x_missing_mean, x_missing_0, x_missing_reg]
mse = []

for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores = cross_val_score(estimator, x, y_full, scoring="neg_mean_squared_error",cv=5).mean()
    mse.append(scores* -1)
#查看交叉验证的得分    
[*zip(["x_full"," x_missing_mean", "x_missing_0", "x_missing_reg"],mse)] 
#得分情况条形图绘制
x_labels = ["Full data", "Mean Imputation", "Zero Imputation","Regressor Imputation"]

colors = ["r", "g", "b", "orange"]

plt.figure(figsize=(12,6))#添加画布
ax = plt.subplot(111)

for i in np.arange(len(mse)):#range(len(mse))
    ax.barh(i, mse[i], color=colors[i], alpha=0.8, align='center')
    
ax.set_title("Imputation Techniques with Boston Data")
ax.set_xlim(left=np.min(mse)*0.9, right=np.max(mse)*1.1)
ax.set_yticks(np.arange(len(mse)))
ax.set_yticklabels(x_labels)
plt.savefig("D:\pylearn\py_pic\imputation.jpg")
plt.show()

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值