Task5 模型融合

最新推荐文章于 2023-03-29 22:50:49 发布

LucyFang2020

最新推荐文章于 2023-03-29 22:50:49 发布

阅读量176

点赞数

文章标签： python

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/116073977

版权

参考链接：https://github.com/datawhalechina/team-learning-data-mining/blob/master/SecondHandCarPriceForecast/Task5%20%E6%A8%A1%E5%9E%8B%E8%9E%8D%E5%90%88.md

1. 模型融合目标

对于多种调参完成的模型进行模型融合。

2. Stacking相关理论介绍

stacking 是用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。
结合策略可以将基学习器结合在一起。分类问题用投票法来选择输出最多的类。回归问题将分类器输出的结果求平均值。
投票法和平均法都是很有效的结合策略，Stacking是另一种结合策略，使用另外一个机器学习算法来将个体机器学习器的结果结合在一起。
在stacking方法中，分为初级学习器（个体学习器）和次级学习器或元学习器（用于结合的学习器）。

3. 代码实现

导包

import pandas as pd
import numpy as np
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

warnings.filterwarnings('ignore')
%matplotlib inline

读取数据

Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')
TestB_data = pd.read_csv('used_car_testB_20200421.csv', sep=' ')

print(Train_data.shape)
print(TestB_data.shape)

Train_data.head()

查看数据并预处理

numerical_cols = Train_data.select_dtypes(exclude = 'object').columns
print(numerical_cols)

feature_cols = [col for col in numerical_cols if col not in ['SaleID','name','regDate','price']]

X_data = Train_data[feature_cols]
Y_data = Train_data['price']

X_test  = TestB_data[feature_cols]

print('X train shape:',X_data.shape)
print('X test shape:',X_test.shape)

def Sta_inf(data):
    print('_min',np.min(data))
    print('_max:',np.max(data))
    print('_mean',np.mean(data))
    print('_ptp',np.ptp(data))
    print('_std',np.std(data))
    print('_var',np.var(data))

print('Sta of label:')
Sta_inf(Y_data)

X_data = X_data.fillna(-1)
X_test = X_test.fillna(-1)

def build_model_lr(x_train,y_train):
    reg_model = linear_model.LinearRegression()
    reg_model.fit(x_train,y_train)
    return reg_model

def build_model_ridge(x_train,y_train):
    reg_model = linear_model.Ridge(alpha=0.8)#alphas=range(1,100,5)
    reg_model.fit(x_train,y_train)
    return reg_model

def build_model_lasso(x_train,y_train):
    reg_model = linear_model.LassoCV()
    reg_model.fit(x_train,y_train)
    return reg_model

def build_model_gbdt(x_train,y_train):
    estimator =GradientBoostingRegressor(loss='ls',subsample= 0.85,max_depth= 5,n_estimators = 100)
    param_grid = { 
            'learning_rate': [0.05,0.08,0.1,0.2],
            }
    gbdt = GridSearchCV(estimator, param_grid,cv=3)
    gbdt.fit(x_train,y_train)
    print(gbdt.best_params_)
    # print(gbdt.best_estimator_ )
    return gbdt

def build_model_xgb(x_train,y_train):
    model = xgb.XGBRegressor(n_estimators=120, learning_rate=0.08, gamma=0, subsample=0.8,\
        colsample_bytree=0.9, max_depth=5) #, objective ='reg:squarederror'
    model.fit(x_train, y_train)
    return model

def build_model_lgb(x_train,y_train):
    estimator = lgb.LGBMRegressor(num_leaves=63,n_estimators = 100)
    param_grid = {
        'learning_rate': [0.01, 0.05, 0.1],
    }
    gbm = GridSearchCV(estimator, param_grid)
    gbm.fit(x_train, y_train)
    return gbm

## xgb
xgr = xgb.XGBRegressor(n_estimators=120, learning_rate=0.1, subsample=0.8,\
        colsample_bytree=0.9, max_depth=7) # ,objective ='reg:squarederror'

scores_train = []
scores = []

## 5折交叉验证方式
sk=StratifiedKFold(n_splits=5,shuffle=True,random_state=0)
for train_ind,val_ind in sk.split(X_data,Y_data):
    
    train_x=X_data.iloc[train_ind].values
    train_y=Y_data.iloc[train_ind]
    val_x=X_data.iloc[val_ind].values
    val_y=Y_data.iloc[val_ind]
    
    xgr.fit(train_x,train_y)
    pred_train_xgb=xgr.predict(train_x)
    pred_xgb=xgr.predict(val_x)
    
    score_train = mean_absolute_error(train_y,pred_train_xgb)
    scores_train.append(score_train)
    score = mean_absolute_error(val_y,pred_xgb)
    scores.append(score)

print('Train mae:',np.mean(score_train))
print('Val mae',np.mean(scores))

LucyFang2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Task5 模型融合

1. 模型融合目标对于多种调参完成的模型进行模型融合。2. Stacking相关理论介绍stacking 是用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，可以使用投票法来选择输出最多的类。对于回归问题，可以将分类器输出的结果求平均值。投票法和平均法都是很有效的结合策略，Stacking是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起的一种结合策略。在stacking
复制链接

扫一扫