EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning论文笔记

最新推荐文章于 2024-07-23 17:02:16 发布

牛八小圣

最新推荐文章于 2024-07-23 17:02:16 发布

阅读量348

点赞数

分类专栏：算法学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42114130/article/details/118254111

版权

算法学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning论文笔记

在不平衡学习的重叠场景中的进化混合采样

主要思想

为了消除重叠区域中的大多数样本，论文提出了EHSO来处理重叠样本。
通过删除无用的多数类样本，使决策边界更加清晰。
EHSO使用进化算法来寻找分类性能和随机过采样的replicate ratio（复制比）的最优方案。
论文的主要贡献如下：

通过混合采样平衡样本数据
设计了一个overlapping ratio（重叠率）与分类性能的适应度函数
将不平衡率考虑到优化过程中，克服随机过采样引起的过拟合现象

主要步骤

检测类重叠区域
通过进化算法来欠采样重叠区域的多数类样本
随机过采样少数类的样本

1.检测类重叠区域

对于任意多数类样本，如果其K最近邻有任何样本属于少数类，就把这个多数类样本放到重叠集合中。如公式所示

2.通过进化算法进行欠采样

在EHOS中，欠采样的目的使消除重叠区域中的多数类样本，以最大限度地提高多数类和少数类之间的决策边界的可见性。

这一步不是很理解：
EHOS参考EUS（ S. García, F. Herrera, Evolutionary undersampling for classification with imbalanced datasets: proposals and taxonomy, Evolutionary Computation 17(3) (2009) 275–306.）多数类都被编码为0和1放到一个染色体中。假设多数类样本的数量为m，每一条染色体是一个m维的向量。1表示多数类样本在重叠区域内，0表示它不再重叠区域内。染色体表达式如下，其中m’代表多数类样本在重叠区域内的个数：
在这里插入图片描述
为了去优化每一代染色体，论文设计了一个适应度函数，EHOS三个优化目标如下：

最小化不平衡率IR
最小化重叠比OR
消除信息较少的多数类样本，尽量减少原始信息的损失

其中不平衡率为：
在这里插入图片描述
重叠率为：

论文设计的适应度函数如下：其中 $\alpha$ 表示重要度，代表谁的重要性更高

论文使用的优化算法是CHC算法（一种改进的遗传算法，还没去了解- -），与GA（遗传算法）相比，CHC强调了优秀个体的保留。
为了减少算法迭代的次数，当全局最优解连续几代都未更新时，将停止迭代。

3.随机过采样

因为最终去除的多数类样本的数量是由CHC算法和数据分布的特征确定的。如果某些数据集中的数字相对较小，那么多数类与少数类还是存在数量上的差异。
因此需要使用过采样技术来将欠采样后的样本平衡化。

算法的伪代码

在这里插入图片描述

牛八小圣

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning论文笔记

EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning论文笔记主要思想主要步骤1.检测类重叠区域2.通过进化算法进行欠采样3.随机过采样算法的伪代码在不平衡学习的重叠场景中的进化混合采样主要思想为了消除重叠区域中的大多数样本，论文提出了EHSO来处理重叠样本。通过删除无用的多数类样本，使决策边界更加清晰。EHSO使用进化算法来寻找分类性能和随机过采样的replicate ratio（复制
复制链接

扫一扫

专栏目录