深度学习分类类别不平衡_学界 | 一文概览卷积神经网络中的类别不均衡问题

原标题:学界 | 一文概览卷积神经网络中的类别不均衡问题

作者:Mateusz Buda等

参与:Nurhachu Null、刘晓坤

该论文的作者以两种典型的不均衡为例,系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法,在三个常用数据集MINIST、CIFAR-10 和 ImageNet上用统一标准进行实验,得出了综合性的结果,富有参考和指导意义。

论文链接:https://arxiv.org/abs/1710.05381

摘要:在这篇论文中,我们系统地研究了卷积神经网络中类别不均衡会给分类性能带来的影响,并且对比了常用于解决该问题的一些方法。类别不均衡是一个普遍的问题,虽然这个问题在分类机器学习中被广泛地研究,然而在深度学习领域很少有可用的系统性研究。在我们的研究中,我们用了三个复杂度依次递增的基准测试集来研究类别不均衡对性能的影响,并对用来解决这个问题的几种方法做了广泛对比,这三个数据集分别是:MINIST、CIFAR-10 和 ImageNet,这 4 种常用解决方法分别是:过采样(oversampling,相当于插值),下采样(downsampling,相当于压缩),两阶段训练(two-phase training),以及阈值化(threholding),阈值化可以补偿先验的类别概率。因为全局准确率在不均衡的数据中是很难确定的,所以我们的主要评价指标是 ROC 曲线下面的面积(ROC AUC)。从我们的实验可以得出以下结论:(i) 不均衡数据会给分类性能带来损害;(ii) 解决不均衡数据问题的方法中,占主导地位的是过采样,它几乎存在于所有的分析场景中; (iii) 过采样应该被用在那些需要完全消除不均衡的情况中,而下采样在只需要从一定程度消除不均衡的情况中的效果可能更好;(iv) 与一些传统的机器学习模型不同的是,过采样也不一定会造成卷积神经网络的过拟合;(v) 当对被正确分类的例子的总数感兴趣的时候,为了补偿先验类别概率,就应该使用阈值化方法。

1 引言

卷积神经网络(CNN)在很多机器学习应用领域都被越来越重视,目前在最近为计算机视觉贡献了很多当前最先进的技术成果ÿ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值