不平衡样本分类问题
不平衡样本如:标签为1的样本远远少于标签为0的样本
常见的解决方法有:欠采样、过采样、欠采样与过采样结合、使用带标签权重的模型、SMOTE算法,下面介绍两种其他方法
EasyEnsemble:
将Bagging与Adaboost的方法结合起来的一种集成学习算法:
(1)Bagging体现于:每一次采样都使用Bagging的采样方法(Bootstrap)对多数类(数量较多的类)样本集进行采样,使其样本数等于少数类
(2)Adaboost体现于:将多数类采样得到的样本集与少数类的样本集的全部样本组合在一起进行Adaboost模型的训练。
(3)最终将T个Adaboost作为基模型进行Ensemble
Adaboost过程如下:
EasyEnsemble代码如下:
BalanceCascade:
基本架构与EasyEnsemble相同,不同的地方在于每训练一个(Adaboost)分类器后就将正确分类的样本去掉,错误分类的样本放回到原样本空间中,通过调整阈值来筛选出分类错误的样本将其保留,阈值调整为使得模型错误率等于
可以看出在T-1轮采样后多数类的样本数为
BalanceCascade代码如下: