XGBOOST调参

XGBOOST的威力不用赘述,反正我是离不开它了。

具体XGBOOST的原理可以参见之前的文章《比XGBOOST更快--LightGBM介绍》

今天说下如何调参。

  1. bias-variance trade-off

xgboost一共有几十个参数:

xgboost.readthedocs.io/

中文版解释:

blog.csdn.net/zc0205112


文艺青年的调参一般这样的:

1. 设定参数{parm},评判指标{metrics};

2. 根据{metrics}在验证集上的大小,确定树的棵树n_estimators;

3. 采用参数{parm}、n_estimators,训练模型,并应用到测试集

一个字:糙!(kuai)

数据挖掘师的调参一般这样的:

  1. 设定基础参数{parm0},基础评判指标{metrics0};

  2. 在训练集上做cross-validation,做训练集/交叉验证集上偏差/方差与树棵树的关系图;

  3. 判断模型是过拟合 or 欠拟合,更新相应参数{parm1};

  4. 重复2、3步,确定树的棵树n_estimators;

  5. 采用参数{parm1}、n_estimators,训练模型,并应用到测试集;

数据集大小:70000*100,随机准确率 0.17%

在设置了基础参数,设定了树的范围后,可以看到模型在训练集和交叉验证集上的效果是这样子滴:


阴影部分,表示的是模型的方差

从上图,可以得出以下几个结论:

- 验证集上偏差最小&方差最小:n_estimators=66

- 训练集和验证集误差较大:过拟合-----模型过于复杂

- 方差较大----模型过于复杂

这符合下面这个图

以上特征,都表明我们需要降低模型复杂程度,有哪些参数可以调整呢:

- 直接降低模型复杂度

max_depth、min_child_weight、gamma

- 随机化

subsample、colsample_bytree

- 正则化

lambda、alpha

通过,grid-search,再调整了以上的参数后,如下图。最佳trade-off点的variance从0.361降低到0.316,auc_mean从0.8312降低到0.8308。


P-R的提升还是比较明显的:



还有,先粗调,再微调

-- 降低learning_rate,当然同时,提高n_estimators


2. 非平衡数据集怎么办

-- 想办法弄到更多的数据

-- 想办法把数据弄平衡

-- 利用smote等算法来过采样/欠采样

-- 设置weight(初始化DMatrix时)

-- 使用更好的metrics:auc、f1

-- min_child_weight 设的小一点

-- scale_pos_weight = 0值的样本数量/1值的样本数量

-- max_delta_step

-- 自定义评价函数

xgb.train(params, dtrain, num_rounds, watchlist, feval=misclassified, maximize=False)

def misclassified(pred_probs, dtrain):
    labels = dtrain.get_label() # obtain true labels
    preds = pred_probs > 0.5 # obtain predicted values
    return 'misclassified', np.sum(labels != preds)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值