Task 5 模型融合

最新推荐文章于 2022-01-27 20:03:47 发布

Pairsppppp

最新推荐文章于 2022-01-27 20:03:47 发布

阅读量195

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/Pairsppppp/article/details/105317772

版权

本文介绍了模型融合中的XGBoost五折交叉验证，详细阐述了如何划分数据集并使用不同方法进行训练和预测。重点讨论了在比赛中的常用融合策略——加权融合和Stacking融合，以提升模型性能。

摘要由CSDN通过智能技术生成

模型融合

导入相关包

import pandas as pd
import numpy as np
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
warnings.filterwarnings('ignore')
%matplotlib inline
import itertools
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
# from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score, train_test_split
# from mlxtend.plotting import plot_learning_curves
# from mlxtend.plotting import plot_decision_regions
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
import lightgbm as lgb
import xgboost as xgb
from sklearn.model_selection import GridSearchCV,cross_val_score
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

读取数据

#读取数据
path = 'D:/二手车价格预测数据集/'
train_data = pd.read_csv(path+'used_car_train_20200313.csv',sep=' ') #sep='xx'以xx为数据分隔符
test_data = pd.read_csv(path+'used_car_testA_20200313.csv',sep=' ') #所有数据都是放在一列上的，以空格为分割，所以需要sep

print(train_data.shape)
print(test_data.shape)

在这里插入图片描述

train_data.head()

在这里插入图片描述

numerical_cols = train_data.select_dtypes(exclude = 'object').columns
print(numerical_cols)

在这里插入图片描述

feature_cols = [col for col in numerical_cols if col not in ['SaleID','name','regDate','price']]

X_data = train_data[feature_cols]
Y_data = train_data['price']
X_test  = test_data[feature_cols]
print('X train shape:',X_data.shape)
print('X test shape:',X_test.shape)