EasyEnsemble和BalanceCascade算法

不平衡样本分类问题

不平衡样本如:标签为1的样本远远少于标签为0的样本
常见的解决方法有:欠采样、过采样、欠采样与过采样结合、使用带标签权重的模型、SMOTE算法,下面介绍两种其他方法

EasyEnsemble:
将Bagging与Adaboost的方法结合起来的一种集成学习算法:
(1)Bagging体现于:每一次采样都使用Bagging的采样方法(Bootstrap)对多数类(数量较多的类)样本集进行采样,使其样本数等于少数类
(2)Adaboost体现于:将多数类采样得到的样本集与少数类的样本集的全部样本组合在一起进行Adaboost模型的训练。
(3)最终将T个Adaboost作为基模型进行Ensemble

Adaboost过程如下:
在这里插入图片描述
EasyEnsemble代码如下:
在这里插入图片描述

BalanceCascade:
基本架构与EasyEnsemble相同,不同的地方在于每训练一个(Adaboost)分类器后就将正确分类的样本去掉,错误分类的样本放回到原样本空间中,通过调整阈值来筛选出分类错误的样本将其保留,阈值调整为使得模型错误率等于在这里插入图片描述
可以看出在T-1轮采样后多数类的样本数为在这里插入图片描述
BalanceCascade代码如下:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值