模型选择与验证

最新推荐文章于 2023-12-08 07:33:56 发布

廿十七

最新推荐文章于 2023-12-08 07:33:56 发布

阅读量553

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_43550820/article/details/105254150

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

模型选择与验证

模型选择
- XGB与LGB
模型调参
模型验证（K-fold）
总结
参考

模型选择

经过前面EDA分析及特征工程，接下来就是建模过程。对于价格预测，是属于回归问题，现常用的回归模型有十三种：MLPRegressor，AdaBoost，Bagging，ExtraTree，LinearRegression，Ridge，SVR，KNNRegressor，Lasso，DecisionTree，XGBoost，RandomForest，GradientBoost.
一般来说，需要对这些模型进行试坑，但有人已经做过这方面工作，直接根据数据的分布特点进行模型选择就行了。

XGB与LGB

在模型的选择上主要是XGB与LGB，原因是因为它们都是基于决策树的树模型，树模型可以不用处理特征与标签就可以直接使用，并且在回归问题上表现良好。一般使用conda进行模型的下载，也可以直接调用sklearn的API接口，两者在参数上稍微有些不同。

conda install lightgbm
conda install XGBoost

在使用conda下载lgb有一个坑需要注意，就是大概率会提示你找不到包（添加镜像源也不行），解决办法如下：

conda install -c conda-forge lightgbm

模型调参

选择好使用的模型后，需要对模型一些参数进行最优选择，常用的方法是使用GridSearchCV进行调参，基本就是排列组合法，耗时较长。可以对主要的两三个参数进行GridSearchCV调参。调参的一般步骤如下：

step1：设置一些初始值，如最重要的learning_rate和estimator，由于后续grid search时间较长，所以learning_rate要较大，一般可以取0.1；

step2：保持learning rate和其他booster相关的参数不变，用cv的方法调节estimators的参数；

step3：保持estimator和learning rate不变，调节booste相关的参数。可以从影响最大的max_depth 和min_child_weight开始。然后是gamma,subsample , colsample_bytree和Regularization Parameters等，逐步调节所有可能有影响的booster参数，调节时，可以先粗粒度，确定粗粒度范围后，再细粒度调节，在调节过程中，每得到一组最佳参数后，可以尝试不断用cv的方法调节estimator参数；

step4: 最后缩小learning rate，此时estimator的数量会增加，训练时间也会较长，得到最佳的learning rate和estimator的值；

step5：得到一组较好的参数；

ps：其实参数调节对模型的影响不会很大，但花费的时间却是较长的，所以有时候不必执迷于参数的调节，很多时候特征工程和预测方法的选择对模型的影响更大。

模型验证（K-fold）

为了对验证模型的泛化能力，通常会把整个训练集分为训练集（train_set），评估集（valid_set），测试集（test_set）三个部分，一部分用来训练，另一部分用来验证，这种验证方式就是交叉验证。

xgbs = xgb.XGBRegressor(max_depth=10, learning_rate=0.1, n_estimators=5000, silent=False, objective='reg:gamma')
scores_train = []
scores = []

k=StratifiedKFold(n_splits=5,shuffle=True,random_state=0)
for train_ind,val_ind in sk.split(X,Y):
    print('--------------------- fold ---------------------')
    train_x=X.iloc[train_ind]
    train_y=Y.iloc[train_ind]
    val_x=X.iloc[val_ind]
    val_y=Y.iloc[val_ind]
    
    xgbs.fit(
        train_x, train_y,
        eval_set=[(val_x, val_y)],
        eval_metric='mae',
        early_stopping_rounds=100,
        verbose=200)
        
    pred_train_xgbs=xgbs.predict(train_x)
    pred_xgbs=xgbs.predict(val_x)
    
    score_train = mean_absolute_error(train_y,pred_train_xgbs)
    scores_train.append(score_train)
    score = mean_absolute_error(val_y,pred_xgbs)
    scores.append(score)
    
print('Train mae:',np.mean(score_train))
print('Val mae',np.mean(scores))