深度学习分类类别不平衡_学界 | 一文概览卷积神经网络中的类别不均衡问题

最新推荐文章于 2022-07-08 16:10:52 发布

weixin_39929602

最新推荐文章于 2022-07-08 16:10:52 发布

阅读量996

点赞数

文章标签：深度学习分类类别不平衡

本文链接：https://blog.csdn.net/weixin_39929602/article/details/111841915

版权

原标题：学界 | 一文概览卷积神经网络中的类别不均衡问题

作者：Mateusz Buda等

参与：Nurhachu Null、刘晓坤

该论文的作者以两种典型的不均衡为例，系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法，在三个常用数据集MINIST、CIFAR-10 和 ImageNet上用统一标准进行实验，得出了综合性的结果，富有参考和指导意义。

论文链接：https://arxiv.org/abs/1710.05381

摘要：在这篇论文中，我们系统地研究了卷积神经网络中类别不均衡会给分类性能带来的影响，并且对比了常用于解决该问题的一些方法。类别不均衡是一个普遍的问题，虽然这个问题在分类机器学习中被广泛地研究，然而在深度学习领域很少有可用的系统性研究。在我们的研究中，我们用了三个复杂度依次递增的基准测试集来研究类别不均衡对性能的影响，并对用来解决这个问题的几种方法做了广泛对比，这三个数据集分别是：MINIST、CIFAR-10 和 ImageNet，这 4 种常用解决方法分别是：过采样(oversampling，相当于插值)，下采样(downsampling，相当于压缩)，两阶段训练(two-phase training)，以及阈值化(threholding)，阈值化可以补偿先验的类别概率。因为全局准确率在不均衡的数据中是很难确定的，所以我们的主要评价指标是 ROC 曲线下面的面积(ROC AUC)。从我们的实验可以得出以下结论：(i) 不均衡数据会给分类性能带来损害；(ii) 解决不均衡数据问题的方法中，占主导地位的是过采样，它几乎存在于所有的分析场景中； (iii) 过采样应该被用在那些需要完全消除不均衡的情况中，而下采样在只需要从一定程度消除不均衡的情况中的效果可能更好；(iv) 与一些传统的机器学习模型不同的是，过采样也不一定会造成卷积神经网络的过拟合；(v) 当对被正确分类的例子的总数感兴趣的时候，为了补偿先验类别概率，就应该使用阈值化方法。

1 引言

卷积神经网络(CNN)在很多机器学习应用领域都被越来越重视，目前在最近为计算机视觉贡献了很多当前最先进的技术成果ÿ

最低0.47元/天解锁文章

weixin_39929602

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习分类类别不平衡_学界 | 一文概览卷积神经网络中的类别不均衡问题

原标题：学界 | 一文概览卷积神经网络中的类别不均衡问题作者：Mateusz Buda等参与：Nurhachu Null、刘晓坤该论文的作者以两种典型的不均衡为例，系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法，在三个常用数据集MINIST、CIFAR-10 和 ImageNet上用统一标准进行实验，得出了综合性的结果，富有参考和指导意义。论文链接：https://arxiv.org...
复制链接

扫一扫