xgboost算法_详解xgboost算法的样本不平衡问题

最新推荐文章于 2024-06-06 01:18:09 发布

weixin_40008920

最新推荐文章于 2024-06-06 01:18:09 发布

阅读量2.8k

点赞数 1

文章标签： xgboost算法

本文详细介绍了XGBoost中的参数scale_pos_weight，用于处理样本不平衡问题。当scale_pos_weight>1时，正样本权重增加，负样本权重不变；<1则反之。对于关注AUC指标的场景，可以调整此参数，但若关注预测概率准确性，应考虑使用max_delta_step。文章还从贝叶斯角度解释了改变权重可能导致预测概率失真的问题。

摘要由CSDN通过智能技术生成

XGBoost官方文档对参数scale_pos_weight的定义：

翻译：

调节正负样本权重的平衡，常用来处理不平衡的正负样本数据。

典型值算法：

scale_pos_weight = 负样本总数/正样本总数。若训练负样本总数是500 ，正样本总数100，那么设置 scale_pos_weigh为 5 。

scale_pos_weight的含义：

字面意思是正样本权重尺度，是一个关于调节正样本权重的变量。好吧，让我们深入XGBoost的源码分析：

我们重点关注权重更新方程那一行，可得如下结论：

当scale_pos_weight > 1时，即训练集的负样本总数大于正样本总数，y表示类别，由权重更新方程可知，正类对应的权重w增加，负类对应的权重不变。同理可知scale_pos_weight < 1时的权重更新。

讲到这里，是不是

最低0.47元/天解锁文章

weixin_40008920

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
xgboost算法_详解xgboost算法的样本不平衡问题

XGBoost官方文档对参数scale_pos_weight的定义：翻译：调节正负样本权重的平衡，常用来处理不平衡的正负样本数据。典型值算法：scale_pos_weight = 负样本总数/正样本总数。若训练负样本总数是500 ，正样本总数100，那么设置 scale_pos_weigh为 5 。scale_pos_weight的含义：字面意思是正样本权重尺度，是一个关于调节正样...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。