1. 引言
不平衡数据一直是数据挖掘领域最具挑战的几个问题之一。由于多数类的样本在总样本占据的比重太多,少数类样本被忽视,训练出来的分类器更偏向于多数类导致分类器的性能下降。在实际生活中更是有着举足轻重的影响,比如电路电压急速上升,没有发生危险的情况预测报警没有什么影响,如果发生了危险还没有预测报警的话危害极大。
2.研究现状
Synthetic Minority Oversampling Technique是最早提出来的算法,我的理解就是它是一种插值法,在少数类样本之间进行插值。但是这种算法可能会在多数类样本中间插值出一个少数类样本导致类别重叠。
3.ADASYN
本文介绍的是 ADASYN: 自适应综合过采样方法。
算法步骤如下: