xgboost算法_详解xgboost算法的样本不平衡问题

本文详细介绍了XGBoost中的参数scale_pos_weight,用于处理样本不平衡问题。当scale_pos_weight>1时,正样本权重增加,负样本权重不变;<1则反之。对于关注AUC指标的场景,可以调整此参数,但若关注预测概率准确性,应考虑使用max_delta_step。文章还从贝叶斯角度解释了改变权重可能导致预测概率失真的问题。
摘要由CSDN通过智能技术生成

XGBoost官方文档对参数scale_pos_weight的定义:

1a8edb940214db9b9a6b16d3b530bef0.png

翻译:

调节正负样本权重的平衡 ,常用来处理不平衡的正负样本数据 。

典型值算法:

scale_pos_weight = 负样本总数/正样本总数 。若训练负样本总数是500 ,正样本总数100,那么设置 scale_pos_weigh为 5 。

scale_pos_weight的含义:

字面意思是正样本权重尺度,是一个关于调节正样本权重的变量 。 好吧,让我们深入XGBoost的源码分析:

380533c20d17aedafe6307a9b8555e89.png

我们重点关注权重更新方程那一行,可得如下结论:

 当scale_pos_weight > 1时,即训练集的负样本总数大于正样本总数,y表示类别,由权重更新方程可知,正类对应的权重w增加,负类对应的权重不变 。同理可知scale_pos_weight < 1时的权重更新 。

讲到这里,是不是

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值