数据挖掘入门——天池二手车数据挖掘（04模型融合）

本文链接：https://blog.csdn.net/christineNAN/article/details/105194204

本文介绍了在天池二手车数据挖掘比赛中如何进行模型融合，包括简单加权融合、Stacking方法等。通过XGBoost的交叉验证和不同融合策略，如加权融合和Stacking，提高模型的预测性能和鲁棒性。特征、结果和模型层面的融合都被讨论作为提升模型性能的关键手段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

赛题链接

4.1 模型融合目标
对于多种调参完成的模型进行模型融合。
完成对于多种模型的融合，提交融合结果并打卡。
4.2 内容介绍
模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。

简单加权融合:
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合
stacking/blending:
构建多层模型，并利用预测结果再拟合预测。
boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:
多树的提升方法

4.3 Stacking相关理论介绍

什么是 stacking
简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。

4.4代码示例：

import pandas as pd
import numpy as np
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
warnings.filterwarnings('ignore')
%matplotlib inline
import itertools
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
# from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score, train_test_split
# from mlxtend.plotting import plot_learning_curves
# from mlxtend.plotting import plot_decision_regions
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
import lightgbm as lgb
import xgboost as xgb
from sklearn.model_selection import GridSearchCV,cross_val_score
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

## 数据读取
Train_data = pd.read_csv('datalab/231784/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=