【论文笔记】The Impact of Imbalanced Training Data for CNN

原创 2015年11月16日 20:35:58

原文是:《The Impact of Imbalanced Training Data for Convolutional Neural Networks》

本博客是该论文的阅读笔记,不免有很多细节不对之处。

还望各位看官能够见谅,欢迎批评指正。

更多相关博客请猛戳:http://blog.csdn.net/cyh_24

如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/49871387

Abstract

本文主要研究使用不平衡数据训练CNN对图像分类的影响。文中使用的数据集是CIFAR-10,作者使用这个数据库,人工地对不同类别生成不同数量分布的数据。比如,让一个类别的图像占很大的比例,而另一类占很小的比例。使用这些生成的不同的训练集,均去训练一个CNN,并测试得到相应的准确率。

结果显示,不平衡训练集会对结果造成很大的负面影响,而训练集在平衡的情况下,能够达到最好的performance。

并且,文中得出一个结论:oversampling是一个很好的效的方式来解决不平衡训练集的问题。

实验过程

Dataset

使用的数据集是CIFAR-10,该数据集有10个类,每类6000张,共6w张图像。

此处输入图片的描述

对CIFAR-10进行数据切分,使用其中的5000张作为训练,1000作为测试图像。

生成不同数据分布

此处输入图片的描述

解释一下上图:

  • Dist.1 是balanced data,每个类都占10%比重;
  • Dist.2表明airplane,automobile,bird和cat各占8%,而其他类别各占12%…这个应该能看懂吧。

所以,现在有了11个训练集,接下来使用相同的CNN来训练,还是使用原来的test data进行测试。

Oversampling

文中使用的oversampling方式非常简单:

对于每一类,随机选出一些图片进行复制,直到该类图片数量与占最大比重的图片相等。

Results

Distribution Performace

此处输入图片的描述

Oversampling Performance

此处输入图片的描述

以上是经过oversampling之后的训练的CNN的performance,可以看出,几乎每个类都有提升,不过Dist.1(balanced training data)还是最高的。

Total Performance

此处输入图片的描述

平均以下每个Dist的准确率,得到如下表所示的准确率比较图,深色是imbalanced 的准确率,浅色是oversampling之后的准确率。

文章目标很明确,思路也很简单,并没有其他trick,我也就讲到这了。

总结一下,文章讲的事情和结论:

  1. 训练数据分布情况对CNN结果产生很大影响;
  2. 显然,balanced训练集是最优的,数据越不平衡,准确率越差;
  3. 使用Oversampling能够提升准确率;
版权声明:如需转载,请附上本文链接。作者主页:http://blog.csdn.net/cyh_24

相关文章推荐

《C++Primer Plus》学习笔记(五)

1、逻辑表达式 1、||操作符是一个顺序点(sequence point)。 先修改左侧的值,再对右侧的值进行判断。如:i++  先将i++ 再判断i == j; 2、&&操作符的优先...
  • cyh24
  • cyh24
  • 2012年07月15日 02:27
  • 989

《C++Primer Plus》学习笔记(四)

1、递增和递减操作符 同一条语句对同一个值不要使用多次的递增递减操作。 如:x = 2*x++ *(3 - ++x); 在不同的操作系统中将产生不同的结果(规则“修改后使用”和“使用后修改”可...
  • cyh24
  • cyh24
  • 2012年07月15日 02:27
  • 1215

GoogLeNet:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning论文笔记

ResNet以及GoogLeNet在图像识别上都取得了非常优异都效果,并且都具有各自都风格和特点。如果将ResNet都Residual block和GoogLeNet都Inception block结...
  • wspba
  • wspba
  • 2017年04月02日 17:43
  • 2098

[深度学习论文笔记][Weight Initialization] Understanding the difficulty of training deep feedforward neural

Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural...

论文笔记 STCT: Sequentially Training Convolutional Networks for Visual Tracking

对于deep CNN网络的应用,在训练数据的数目有限时,往往在大数据集上预训练再在目标任务中微调的方法进行解决。但是在在线视觉跟踪问题(online visual tracking)中,有ground...

人脸识别方向论文笔记(1)-- A Light CNN for Deep Face Representation With Noisy Labels

原文地址:https://arxiv.org/pdf/1511.02683.pdf 这篇论文中,创新点有两个:1.提出了一种新的激活函数Max-Feature-Map(MFM不仅能区分开噪声数据和信息...

Region-based Convolutional Networks for Accurate Object Detection and Segmentation----R-CNN论文笔记

一、为什么提出R-CNN目标检测性能停滞不前,性能最好的集成方法又太复杂,所以作者提出了一个既能大幅提升性能,又更简单的R-CNN。二、R-CNN的框架上面的框架图清晰的给出了R-CNN的目标检测流程...

论文笔记 | CNN-RNN:A Unified Framework for Multi-label Image Classification

AuthorsJiang Wang Yi Yang Junhua Mao Zhiheng Huang Chang Huang Wei Xu Wang Jiang Abstract利用了CN...

论文阅读笔记 SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition

这篇论文来自美国罗格斯大学的 Han Zhang, CVPR2016 1. 简介          相比于一般的目标识别,细粒度识别具有更大的挑战性。其原因是由于姿态与视角的不同,不同图像之间微小...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【论文笔记】The Impact of Imbalanced Training Data for CNN
举报原因:
原因补充:

(最多只允许输入30个字)