不平衡数据处理技术——RUSBoost

RUSBoost是结合随机欠抽样(RUS)与Adaboost.M2算法的一种方法,用于处理不平衡数据集。它在Adaboost的每轮迭代前使用RUS创建平衡的训练数据子集,训练弱分类器。通过调整样本权重和计算误差,RUSBoost能有效提升少数类样本的识别能力。参考文献:C. Seiffert等人在2010年的IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans中详细介绍了这种方法。" 107610301,7612436,HTML select 多选功能增强:拖动选择与快捷键,"['HTML', '前端开发']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RUSBoost是一个非常简单的针对不平衡数据集的算法,算法如其名,就是RUS+Boost

RUS(random undersampling):随机欠抽样,随机从数据集中抽取一定量的多数类样本和少数类组成平衡分布的训练数据集

Boost:指的是 Adaboost.M2 算法

RUSBoost:将Adaboost.M2算法的每轮迭代,在训练弱分类器之前,使用RUS方法抽取训练数据集,用于弱分类器训练

算法过程:

1.为所有样本设置归一化的样本权重 D (i)

2. for t=1,2,....,T

        a.随机抽取一定数量的多数类样本,和所有的少数类组成训练数据集S,并得到S中样本的权重  SD,将SD进行归一化

        b. 使用 训练数据集 S ,依据权重 SD 训练一个弱分类器h(t), h(t)  输出为 判为两个类的概率 ,最终判定时,哪类类概率高就判为哪个类。

           设h(t)对第i个样本判为样本实际类别的概率为 p1 (i) ,  判为与样本实际类别相反  类别的概率 为 p2 (i)

        c.计算误差e,e =∑ D (i)*[1- p1(i) + p2 (i)  ],这里求和公式仅针对分错的样本

            计算α(t)=e/(1-e)

        d.更新权重, D (i)= D (i)* α(t) ^(0.5* [ 1+ p1 (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值