Entropy‐based hybrid sampling ensemble learning for imbalanced data论文笔记

最新推荐文章于 2024-05-05 21:49:08 发布

牛八小圣

最新推荐文章于 2024-05-05 21:49:08 发布

阅读量260

点赞数 1

分类专栏：算法学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_42114130/article/details/118280994

版权

算法学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Entropy‐based hybrid sampling ensemble learning for imbalanced data论文笔记

基于信息熵的混合采样集成学习（EHSEL）

摘要

欠采样会丢失数据的信息；当高度不平衡的情况下，过采样会导致类重叠的问题。为了解决这两个问题，论文利用信息熵考虑了训练数据的分布，从而区分在欠采样过程中的重要样本。同时，正类样本在进行过采样时，只采样到负类样本每个子集的大小，因此消除了重叠问题。最后，论文提出的方法保留了训练过程中的所有数据，并从原始训练数据生成data view（数据视图）（这里是子集的意思？）每一个data view都使用一个单独的基分类器进行训练。

算法思路

0.算法流程图

在这里插入图片描述

1.负类样本欠采样（基于信息熵

信息熵的定义：
对于样本 $x_{i}$ ，其信息熵定义为：（其中 $c$ 是类的数量， $p^j(x_{i})$ 是 $x_{i}$ 属于类 $j$ 的概率。）

通常，这个概率使用近邻方法来计算，论文中使用K-NN方法进行计算：（其中， $num_{j}$ 代表属于类 $j$ 的候选样本的数量）

假设所有样本的信息熵为 ${{E_{1},E_{2}...E_{N}}\}$ ，将负类样本分成两组，怎么分呢？论文中定义了一个阈值 $\alpha$ ，大于 $\alpha$ 分成一组，小于等于 $\alpha$ 分成一组，具体式子如下：
第一组：

第二组：
之后，保留第一组的所有样本，将第二组样本随机分为 $M$ 个子集 ${sub_{1},sub_{2}...sub_{M}\}$ ， $M$ 是重采样率的一个参数
最后，将第一组样本合并到每个子集中 ${S_{1},S_{2}...S_{M}\}$

2.正类样本进行过采样

在负类样本欠采样后，使用正类样本与每一个负类子集进行过采样，论文中使用的是SMOTE。

新的正类样本定义为：
在这里插入图片描述
其中 $S^{pos}$ 为正类原样本， $S^{smo}$ 为SMOTE合成的新正类样本。

最后将新的正类样本与每一个负类子集组合，形成 $M$ 个数据集（论文中叫data view），定义如下：
在这里插入图片描述

3.分类器集成

假设测试集样本 $x_{i}$ 的输出概率为 $P_{ij}$ 。
$x_{i}$ 属于类别 $j$ 的结果由 $M$ 个基分类器通过投票得出（规则是：超过基分类器数量的一半，即为这个类）。
定义如下：
在这里插入图片描述

4.算法伪代码

在这里插入图片描述

评价指标

论文使用了 $B P 神经网络$ ， $G F R N N$ ， $S V M$ 作为基分类器。
评价指标为： $A A C C$ （平均精度）
在这里插入图片描述
这里不懂： Friedman test? Nemeny test?

分析参数M

论文中，从所选的数据集中抽取了8个有代表性的数据集。包括：数量最大最小，不平衡率最大最小。
将参数 $M$ 设置为 ${1,2...round(IR)\}$
通过实验表明，可以得出以下结论：

AACC值随着不同的M值而有明显的变化。因此，可以表明，随着data view的数量变化，EHSEL的分类效果可能会受到显著的影响。
8个数据集中的6个最好结果的M值都在 ${1,2...round(IR)\}$ 这个区域内。因此，说明M值太大或太小都不适合提升分类效果。
这些数据集。。。。。对M的变化不敏感，而这些数据集。。。。。对M的变化非常敏感。

牛八小圣

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Entropy‐based hybrid sampling ensemble learning for imbalanced data论文笔记

Entropy‐based hybrid sampling ensemble learning for imbalanced data论文笔记摘要算法思路0.算法流程图1.负类样本欠采样（基于信息熵基于信息熵的混合采样集成学习（EHSEL）摘要欠采样会丢失数据的信息；当高度不平衡的情况下，过采样会导致类重叠的问题。为了解决这两个问题，论文利用信息熵考虑了训练数据的分布，从而区分在欠采样过程中的重要样本。同时，正类样本在进行过采样时，只采样到负类样本每个子集的大小，因此消除了重叠问题。最后，论文提出的方
复制链接

扫一扫