Entropy‐based hybrid sampling ensemble learning for imbalanced data论文笔记

基于信息熵的混合采样集成学习(EHSEL)

摘要

欠采样会丢失数据的信息;当高度不平衡的情况下,过采样会导致类重叠的问题。为了解决这两个问题,论文利用信息熵考虑了训练数据的分布,从而区分在欠采样过程中的重要样本。同时,正类样本在进行过采样时,只采样到负类样本每个子集的大小,因此消除了重叠问题。最后,论文提出的方法保留了训练过程中的所有数据,并从原始训练数据生成data view(数据视图)(这里是子集的意思?)每一个data view都使用一个单独的基分类器进行训练。

算法思路

0.算法流程图

在这里插入图片描述

1.负类样本欠采样(基于信息熵

  • 信息熵的定义:
    对于样本 x i x_{i} xi,其信息熵定义为:(其中 c c c是类的数量, p j ( x i ) p^j(x_{i}) pj(xi) x i x_{i} xi属于类 j j j的概率。)
    在这里插入图片描述
    通常,这个概率使用近邻方法来计算,论文中使用K-NN方法进行计算:(其中, n u m j num_{j} numj代表属于类 j j j的候选样本的数量)
    在这里插入图片描述
  1. 假设所有样本的信息熵为 { E 1 , E 2 . . . E N } \{{E_{1},E_{2}...E_{N}}\} {E1,E2...EN},将负类样本分成两组,怎么分呢?论文中定义了一个阈值 α \alpha α,大于 α \alpha α分成一组,小于等于 α \alpha α分成一组,具体式子如下:
    第一组:
    在这里插入图片描述
    第二组:
    在这里插入图片描述
  2. 之后,保留第一组的所有样本,将第二组样本随机分为 M M M个子集 { s u b 1 , s u b 2 . . . s u b M } \{sub_{1},sub_{2}...sub_{M}\} {sub1,sub2...subM} M M M是重采样率的一个参数
  3. 最后,将第一组样本合并到每个子集中 { S 1 , S 2 . . . S M } \{S_{1},S_{2}...S_{M}\} {S1,S2...SM}

2.正类样本进行过采样

在负类样本欠采样后,使用正类样本与每一个负类子集进行过采样,论文中使用的是SMOTE。

新的正类样本定义为:
在这里插入图片描述
其中 S p o s S^{pos} Spos为正类原样本, S s m o S^{smo} Ssmo为SMOTE合成的新正类样本。

最后将新的正类样本与每一个负类子集组合,形成 M M M个数据集(论文中叫data view),定义如下:
在这里插入图片描述

3.分类器集成

假设测试集样本 x i x_{i} xi的输出概率为 P i j P_{ij} Pij
x i x_{i} xi属于类别 j j j的结果由 M M M个基分类器通过投票得出(规则是:超过基分类器数量的一半,即为这个类)。
定义如下:
在这里插入图片描述

4.算法伪代码

在这里插入图片描述

评价指标

论文使用了 B P 神 经 网 络 BP神经网络 BP G F R N N GFRNN GFRNN S V M SVM SVM作为基分类器。
评价指标为: A A C C AACC AACC(平均精度)
在这里插入图片描述
这里不懂: Friedman test? Nemeny test?

分析参数M

论文中,从所选的数据集中抽取了8个有代表性的数据集。包括:数量最大最小,不平衡率最大最小。
将参数 M M M设置为 { 1 , 2... r o u n d ( I R ) } \{1,2...round(IR)\} {1,2...round(IR)}
通过实验表明,可以得出以下结论:

  1. AACC值随着不同的M值而有明显的变化。因此,可以表明,随着data view的数量变化,EHSEL的分类效果可能会受到显著的影响。
  2. 8个数据集中的6个最好结果的M值都在 { 1 , 2... r o u n d ( I R ) } \{1,2...round(IR)\} {1,2...round(IR)}这个区域内。因此,说明M值太大或太小都不适合提升分类效果。
  3. 这些数据集。。。。。对M的变化不敏感,而这些数据集。。。。。对M的变化非常敏感。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值