一文概览卷积神经网络中的类别不均衡问题

最新推荐文章于 2023-03-06 11:32:45 发布

机器之心V

最新推荐文章于 2023-03-06 11:32:45 发布

阅读量5k

点赞数 3

文章标签：人工智能 python

本文链接：https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/78409869

版权

这篇论文系统研究了卷积神经网络中类别不均衡问题的影响，对比了过采样、下采样、两阶段训练和阈值化等方法。实验表明，类别不均衡会降低分类性能，过采样通常是最佳解决方案，但在极端不均衡情况下，下采样可能更优。阈值化方法能有效补偿类别概率。

摘要由CSDN通过智能技术生成

该论文的作者以两种典型的不均衡为例，系统地研究并比较了解决 CNN 中类别不均衡问题的各种方法，在三个常用数据集MINIST、CIFAR-10 和 ImageNet上用统一标准进行实验，得出了综合性的结果，富有参考和指导意义。

论文链接：https://arxiv.org/abs/1710.05381

摘要：在这篇论文中，我们系统地研究了卷积神经网络中类别不均衡会给分类性能带来的影响，并且对比了常用于解决该问题的一些方法。类别不均衡是一个普遍的问题，虽然这个问题在分类机器学习中被广泛地研究，然而在深度学习领域很少有可用的系统性研究。在我们的研究中，我们用了三个复杂度依次递增的基准测试集来研究类别不均衡对性能的影响，并对用来解决这个问题的几种方法做了广泛对比，这三个数据集分别是：MINIST、CIFAR-10 和 ImageNet，这 4 种常用解决方法分别是：过采样（oversampling，相当于插值），下采样（downsampling，相当于压缩），两阶段训练（two-phase training），以及阈值化（threholding），阈值化可以补偿先验的类别概率。因为全局准确率在不均衡的数据中是很难确定的，所以我们的主要评价指标是 ROC 曲线下面的面积（ROC AUC）。从我们的实验可以得出以下结论：(i) 不均衡数据会给分类性能带来损害；(ii) 解决不均衡数据问题的方法中，占主导地位的是过采样，它几乎存在于所有的分析场景中； (iii) 过采样应该被用在那些需要完全消除不均衡的情况中，而下采样在只需要从一定程度消除不均衡的情况中的效果可能更好；(iv) 与一些传统的机器学习模型不同的是，过采样也不一定会造成卷积神经网络的过拟合；(v) 当对被正确分类的例子的总数感兴趣的时候，为了补偿先验类别概率，就应该使用阈值化方法。

1 引言

卷积神经网络（CNN）在很多机器学习应用领域都被越来越重视，目前在最近为计算机视觉贡献了很多当前最先进的技术成果，包括目标检测、图像分类、图像分割等等。卷积神经网络也被广泛地应用在自然语言处理和语音识别领域，在这些领域里，CNN 要么替代传统技术，要么帮助改善传统机器学习模型 [1]。卷积神经网络在模型中集合了自动特征提取器和分类器，这是它和传统机器学习技术之间最大的不同。这个特性让卷积神经网络能够学习分层表征 [2]。标准的卷积神经网络由全连接层、多个包含卷积层、激活函数层以及最大池化层的模块组成 [3,4,5]。卷积神经网络本质上就是很复杂的，所以训练和测试网络的时候需要很大的计算量，这通常都是借助于现代的 GPU 来解决的。