Kaggle房价预测进阶版/bagging/boosting/AdaBoost/XGBoost

最新推荐文章于 2025-07-16 14:10:33 发布

忧郁一休

最新推荐文章于 2025-07-16 14:10:33 发布

阅读量8.5k

点赞数 6

CC 4.0 BY-SA版权

分类专栏： kaggle 机器学习 Python 文章标签：房价预测 bagging boosting XGBoost AdaBoost

本文链接：https://blog.csdn.net/youyuyixiu/article/details/72841703

这篇博客介绍了在Kaggle房价预测任务中使用bagging、boosting（AdaBoost）和XGBoost的进阶方法。首先，数据预处理步骤与之前相同。接着，通过训练/测试集划分，实施了ensemble策略。在bagging中，使用Ridge分类器创建综合模型。在boosting部分，AdaBoost通过调整前一轮分类错误的权重以提升后续分类器的性能。最后，尽管XGBoost作为强大的Boosting框架，但在实验中其效果未优于bagging，令作者感到意外。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

所谓进阶篇，无非是从模型的角度考虑，用了bagging、boosting（AdaBoost）、XGBoost三个牛X的模型，或者说是模型框架。
前期的数据处理阶段，即step1/2/3和
kaggle房价预测/Ridge/RandomForest/cross_validation
里面的step1/2/3没有任何不同。所以，我这里从step4开始写：

Step 4: 建立模型
把数据集分回训练/测试集

dummy_train_df = all_dummy_df.loc[train_df.index]
dummy_test_df = all_dummy_df.loc[test_df.index]
print dummy_train_df.shape,dummy_test_df.shape

# 将DF数据转换成Numpy Array的形式，更好地配合sklearn
X_train = dummy_train_df.values
X_test = dummy_test_df.values

我们做一点高级的ensemble：

1、bagging：
单个分类器的效果真的是很有限。我们会倾向于把N多的分类器合在一起，做一个“综合分类器”以达到最好的效果。我们从刚刚的试验中得知，Ridge(alpha=15)给了我们最好的结果

ridge = Ridge(alpha = 15)
# bagging 把很多小的分类器放在一起，每个train随机的一部分数据，然后把它们的最终结果综合起来（多数投票）
# bagging 算是一种算法框架
params = [1,10,15,20,25,30,40]
test_scores = []
for param in params:
    clf = BaggingRegressor(base_estimator = ridge,n_estimators = param)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv = 10,scoring = 'neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))

plt.plot(params,test_scores)
plt.title('n_estimators vs CV Error')
plt.show()

br = BaggingRegressor(base_estimator = ridge,n_estimators = 25)
br.fit(X_train,y_train)
y_final = np.expm1(br.predict(X_test))

2、boosting
Boosting比Bagging理论上更高级点，它也是揽来一把的分类器。但是把他们线性排列。下一个分类器把上一个分类器分类得不好的地方加上更高的权重，这样下一个分类器就能在这个部分学得更加“深刻”。

from sklearn.ensemble import AdaBoostRegressor
ms = [10,15,20,25,30,

最低0.47元/天解锁文章

新学期VIP享超值加赠