不平衡数据处理技术——RUSBoost

最新推荐文章于 2024-08-27 18:56:58 发布

chuduogui9750

最新推荐文章于 2024-08-27 18:56:58 发布

阅读量7.2k

点赞数 1

文章标签： python matlab c/c++

原文链接：https://my.oschina.net/weekn/blog/675160

版权

RUSBoost是结合随机欠抽样(RUS)与Adaboost.M2算法的一种方法，用于处理不平衡数据集。它在Adaboost的每轮迭代前使用RUS创建平衡的训练数据子集，训练弱分类器。通过调整样本权重和计算误差，RUSBoost能有效提升少数类样本的识别能力。参考文献：C. Seiffert等人在2010年的IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans中详细介绍了这种方法。" 107610301,7612436,HTML select 多选功能增强：拖动选择与快捷键,"['HTML', '前端开发']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RUSBoost是一个非常简单的针对不平衡数据集的算法，算法如其名，就是RUS+Boost

RUS（random undersampling）：随机欠抽样，随机从数据集中抽取一定量的多数类样本和少数类组成平衡分布的训练数据集

Boost：指的是 Adaboost.M2 算法

RUSBoost：将Adaboost.M2算法的每轮迭代，在训练弱分类器之前，使用RUS方法抽取训练数据集，用于弱分类器训练

算法过程：

1.为所有样本设置归一化的样本权重 D (i)

2. for t=1,2,....,T

a.随机抽取一定数量的多数类样本，和所有的少数类组成训练数据集S，并得到S中样本的权重 SD，将SD进行归一化

b. 使用训练数据集 S ，依据权重 SD 训练一个弱分类器h(t), h(t) 输出为判为两个类的概率 ,最终判定时，哪类类概率高就判为哪个类。

设h(t)对第i个样本判为样本实际类别的概率为 p1 (i) , 判为与样本实际类别相反类别的概率为 p2 (i)

c.计算误差e，e =∑ D (i)*[1- p1(i) + p2 (i) ],这里求和公式仅针对分错的样本

计算α(t)=e/(1-e)

d.更新权重， D (i)= D (i)* α(t) ^(0.5* [ 1+ p1 (

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。