模型选择与验证

模型选择

经过前面EDA分析及特征工程,接下来就是建模过程。对于价格预测,是属于回归问题,现常用的回归模型有十三种:MLPRegressor,AdaBoost,Bagging,ExtraTree,LinearRegression,Ridge,SVR,KNNRegressor,Lasso,DecisionTree,XGBoost,RandomForest,GradientBoost.
一般来说,需要对这些模型进行试坑,但有人已经做过这方面工作,直接根据数据的分布特点进行模型选择就行了。

XGB与LGB

在模型的选择上主要是XGB与LGB,原因是因为它们都是基于决策树的树模型,树模型可以不用处理特征与标签就可以直接使用,并且在回归问题上表现良好。一般使用conda进行模型的下载,也可以直接调用sklearn的API接口,两者在参数上稍微有些不同。

conda install lightgbm
conda install XGBoost

在使用conda下载lgb有一个坑需要注意,就是大概率会提示你找不到包(添加镜像源也不行),解决办法如下:

conda install -c conda-forge lightgbm

模型调参

选择好使用的模型后,需要对模型一些参数进行最优选择,常用的方法是使用GridSearchCV进行调参,基本就是排列组合法,耗时较长。可以对主要的两三个参数进行GridSearchCV调参。调参的一般步骤如下:

step1:设置一些初始值,如最重要的learning_rate和estimator,由于后续grid search时间较长,所以learning_rate要较大,一般可以取0.1;

step2:保持learning rate和其他booster相关的参数不变,用cv的方法调节estimators的参数;

step3:保持estimator和learning rate不变,调节booste相关的参数。可以从影响最大的max_depth 和min_child_weight开始。然后是gamma,subsample , colsample_bytree和Regularization Parameters等,逐步调节所有可能有影响的booster参数,调节时,可以先粗粒度,确定粗粒度范围后,再细粒度调节,在调节过程中,每得到一组最佳参数后,可以尝试不断用cv的方法调节estimator参数;

step4: 最后缩小learning rate,此时estimator的数量会增加,训练时间也会较长,得到最佳的learning rate和estimator的值;

step5:得到一组较好的参数;

ps:其实参数调节对模型的影响不会很大,但花费的时间却是较长的,所以有时候不必执迷于参数的调节,很多时候特征工程和预测方法的选择对模型的影响更大。

模型验证(K-fold)

为了对验证模型的泛化能力,通常会把整个训练集分为训练集(train_set),评估集(valid_set),测试集(test_set)三个部分,一部分用来训练,另一部分用来验证,这种验证方式就是交叉验证。

xgbs = xgb.XGBRegressor(max_depth=10, learning_rate=0.1, n_estimators=5000, silent=False, objective='reg:gamma')
scores_train = []
scores = []

k=StratifiedKFold(n_splits=5,shuffle=True,random_state=0)
for train_ind,val_ind in sk.split(X,Y):
    print('--------------------- fold ---------------------')
    train_x=X.iloc[train_ind]
    train_y=Y.iloc[train_ind]
    val_x=X.iloc[val_ind]
    val_y=Y.iloc[val_ind]
    
    xgbs.fit(
        train_x, train_y,
        eval_set=[(val_x, val_y)],
        eval_metric='mae',
        early_stopping_rounds=100,
        verbose=200)
        
    pred_train_xgbs=xgbs.predict(train_x)
    pred_xgbs=xgbs.predict(val_x)
    
    score_train = mean_absolute_error(train_y,pred_train_xgbs)
    scores_train.append(score_train)
    score = mean_absolute_error(val_y,pred_xgbs)
    scores.append(score)
    
print('Train mae:',np.mean(score_train))
print('Val mae',np.mean(scores))

在这里插入图片描述

总结

调参过程就是炼丹过程,枯燥无味,很多时候调参需要经验指引,不必局限与模型的调参,更加注重特征工程,这样效益会更好。

参考

回归模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值