EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning论文笔记
在不平衡学习的重叠场景中的进化混合采样
主要思想
为了消除重叠区域中的大多数样本,论文提出了EHSO来处理重叠样本。
通过删除无用的多数类样本,使决策边界更加清晰。
EHSO使用进化算法来寻找分类性能和随机过采样的replicate ratio(复制比)的最优方案。
论文的主要贡献如下:
- 通过混合采样平衡样本数据
- 设计了一个overlapping ratio(重叠率)与分类性能的适应度函数
- 将不平衡率考虑到优化过程中,克服随机过采样引起的过拟合现象
主要步骤
- 检测类重叠区域
- 通过进化算法来欠采样重叠区域的多数类样本
- 随机过采样少数类的样本
1.检测类重叠区域
对于任意多数类样本,如果其K最近邻有任何样本属于少数类,就把这个多数类样本放到重叠集合中。
2.通过进化算法进行欠采样
在EHOS中,欠采样的目的使消除重叠区域中的多数类样本,以最大限度地提高多数类和少数类之间的决策边界的可见性。
这一步不是很理解:
EHOS参考EUS( S. García, F. Herrera, Evolutionary undersampling for classification with imbalanced datasets: proposals and taxonomy, Evolutionary Computation 17(3) (2009) 275–306.)多数类都被编码为0和1放到一个染色体中。假设多数类样本的数量为m,每一条染色体是一个m维的向量。1表示多数类样本在重叠区域内,0表示它不再重叠区域内。染色体表达式如下,其中m’代表多数类样本在重叠区域内的个数:
为了去优化每一代染色体,论文设计了一个适应度函数,EHOS三个优化目标如下:
- 最小化不平衡率IR
- 最小化重叠比OR
- 消除信息较少的多数类样本,尽量减少原始信息的损失
其中不平衡率为:
重叠率为:
论文设计的适应度函数如下:其中
α
\alpha
α表示重要度,代表谁的重要性更高
论文使用的优化算法是CHC算法(一种改进的遗传算法,还没去了解- -),与GA(遗传算法)相比,CHC强调了优秀个体的保留。
为了减少算法迭代的次数,当全局最优解连续几代都未更新时,将停止迭代。
3.随机过采样
因为最终去除的多数类样本的数量是由CHC算法和数据分布的特征确定的。如果某些数据集中的数字相对较小,那么多数类与少数类还是存在数量上的差异。
因此需要使用过采样技术来将欠采样后的样本平衡化。