1 填补数据缺失值
from sklearn.impute import SimpleImputer
1.1 用mean或0填补
#采用mean值
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy="mean")
x_missing_mean = imp_mean.fit_transform(x_missing) #训练并填补
#采用0填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0)
x_missing_0 = imp_0.fit_transform(x_missing)
1.2 随机森林填补
标签和特征之间存在联系时,可以相互转换,比如:可以利用a1,a2来预测a3,也可以用a2和a3来预测a1。标签是不存在缺失值的,在转换时,若特征T(比如a1)有缺失值,则可以将没有缺失值的部分作为Ytrain,其他部分可用来进行预测。
原标签+ 特征T的无缺失值部分对应的另外n-1个特征:X_train
特征T的无缺失值:Y_train
从信息缺失最少的特征开始,对所有特征进行上述步骤的遍历,数据逐渐走向完整。进行一个特征填补时,其他特征的缺失值用0代替。
#特征按缺失值的量由小到大排序,返回索引
sortindex = np.argsort(x_missing_reg.isnull().sum(axis=0)).values
#每次循环,x_missing_reg中就有一个特征的缺失值被填充完毕。
for i in sortindex:
#有缺失的原始特征矩阵
df = x_missing_reg
#新标签
fillc = df.iloc[:,i]
#新特征矩阵,y_full为原始标签
df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)
#新特征矩阵缺失值填0
df_0 = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value=0).fit_transform(df)
#特征T的非空部分
Ytrain = fillc[fillc.notnull()]
#需要Ytest所带的索引,去选出Xtest
Ytest = fillc[fillc.isnull()]
#特征T的非空部分所对应的其他特征矩阵
Xtrain = df_0[Ytrain.index,:]
#特征T的空值部分所对应的其他特征矩阵
Xtest = df_0[Ytest.index, :]
#随机森林回归预测缺失值
rfc = RandomForestRegressor(n_estimators=100)
rfc = rfc.fit(Xtrain, Ytrain)
Ypredict = rfc.predict(Xtest)
#填补预测得到的特征值
x_missing_reg.loc[x_missing_reg.iloc[:,i].isnull(), i] = Ypredict
对三种不同填补方式进行效果比较
#交叉验证结果对比
X = [x_full, x_missing_mean, x_missing_0, x_missing_reg]
mse = []
for x in X:
estimator = RandomForestRegressor(random_state=0, n_estimators=100)
scores = cross_val_score(estimator, x, y_full, scoring="neg_mean_squared_error",cv=5).mean()
mse.append(scores* -1)
#查看交叉验证的得分
[*zip(["x_full"," x_missing_mean", "x_missing_0", "x_missing_reg"],mse)]
#得分情况条形图绘制
x_labels = ["Full data", "Mean Imputation", "Zero Imputation","Regressor Imputation"]
colors = ["r", "g", "b", "orange"]
plt.figure(figsize=(12,6))#添加画布
ax = plt.subplot(111)
for i in np.arange(len(mse)):#range(len(mse))
ax.barh(i, mse[i], color=colors[i], alpha=0.8, align='center')
ax.set_title("Imputation Techniques with Boston Data")
ax.set_xlim(left=np.min(mse)*0.9, right=np.max(mse)*1.1)
ax.set_yticks(np.arange(len(mse)))
ax.set_yticklabels(x_labels)
plt.savefig("D:\pylearn\py_pic\imputation.jpg")
plt.show()