我的scikit-learn学习6.23

最新推荐文章于 2024-10-05 21:55:01 发布

upupup21

最新推荐文章于 2024-10-05 21:55:01 发布

阅读量188

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/i13629207958/article/details/106931113

版权

1 填补数据缺失值

from sklearn.impute import SimpleImputer

1.1 用mean或0填补

#采用mean值
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy="mean")
x_missing_mean = imp_mean.fit_transform(x_missing) #训练并填补
#采用0填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0)
x_missing_0 = imp_0.fit_transform(x_missing)

1.2 随机森林填补

标签和特征之间存在联系时，可以相互转换，比如：可以利用a1，a2来预测a3，也可以用a2和a3来预测a1。标签是不存在缺失值的，在转换时，若特征T（比如a1）有缺失值，则可以将没有缺失值的部分作为Ytrain，其他部分可用来进行预测。
原标签+ 特征T的无缺失值部分对应的另外n-1个特征：X_train
特征T的无缺失值：Y_train
从信息缺失最少的特征开始，对所有特征进行上述步骤的遍历，数据逐渐走向完整。进行一个特征填补时，其他特征的缺失值用0代替。

#特征按缺失值的量由小到大排序,返回索引
sortindex = np.argsort(x_missing_reg.isnull().sum(axis=0)).values
#每次循环，x_missing_reg中就有一个特征的缺失值被填充完毕。
for i in sortindex:
    #有缺失的原始特征矩阵
    df = x_missing_reg
    #新标签
    fillc = df.iloc[:,i]
    #新特征矩阵，y_full为原始标签
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)
    #新特征矩阵缺失值填0
    df_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0).fit_transform(df)
    #特征T的非空部分
    Ytrain = fillc[fillc.notnull()]
    #需要Ytest所带的索引，去选出Xtest
    Ytest = fillc[fillc.isnull()]
    #特征T的非空部分所对应的其他特征矩阵
    Xtrain = df_0[Ytrain.index,:]
    #特征T的空值部分所对应的其他特征矩阵
    Xtest = df_0[Ytest.index, :]
    #随机森林回归预测缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)
    #填补预测得到的特征值
    x_missing_reg.loc[x_missing_reg.iloc[:,i].isnull(), i] = Ypredict

对三种不同填补方式进行效果比较

#交叉验证结果对比
X = [x_full, x_missing_mean, x_missing_0, x_missing_reg]
mse = []

for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores = cross_val_score(estimator, x, y_full, scoring="neg_mean_squared_error",cv=5).mean()
    mse.append(scores* -1)
#查看交叉验证的得分    
[*zip(["x_full"," x_missing_mean", "x_missing_0", "x_missing_reg"],mse)] 
#得分情况条形图绘制
x_labels = ["Full data", "Mean Imputation", "Zero Imputation","Regressor Imputation"]

colors = ["r", "g", "b", "orange"]

plt.figure(figsize=(12,6))#添加画布
ax = plt.subplot(111)

for i in np.arange(len(mse)):#range(len(mse))
    ax.barh(i, mse[i], color=colors[i], alpha=0.8, align='center')
    
ax.set_title("Imputation Techniques with Boston Data")
ax.set_xlim(left=np.min(mse)*0.9, right=np.max(mse)*1.1)
ax.set_yticks(np.arange(len(mse)))
ax.set_yticklabels(x_labels)
plt.savefig("D:\pylearn\py_pic\imputation.jpg")
plt.show()