关闭

【论文笔记】The Impact of Imbalanced Training Data for CNN

标签: cnnimbalanced
3992人阅读 评论(0) 收藏 举报
分类:

原文是:《The Impact of Imbalanced Training Data for Convolutional Neural Networks》

本博客是该论文的阅读笔记,不免有很多细节不对之处。

还望各位看官能够见谅,欢迎批评指正。

更多相关博客请猛戳:http://blog.csdn.net/cyh_24

如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/49871387

Abstract

本文主要研究使用不平衡数据训练CNN对图像分类的影响。文中使用的数据集是CIFAR-10,作者使用这个数据库,人工地对不同类别生成不同数量分布的数据。比如,让一个类别的图像占很大的比例,而另一类占很小的比例。使用这些生成的不同的训练集,均去训练一个CNN,并测试得到相应的准确率。

结果显示,不平衡训练集会对结果造成很大的负面影响,而训练集在平衡的情况下,能够达到最好的performance。

并且,文中得出一个结论:oversampling是一个很好的效的方式来解决不平衡训练集的问题。

实验过程

Dataset

使用的数据集是CIFAR-10,该数据集有10个类,每类6000张,共6w张图像。

此处输入图片的描述

对CIFAR-10进行数据切分,使用其中的5000张作为训练,1000作为测试图像。

生成不同数据分布

此处输入图片的描述

解释一下上图:

  • Dist.1 是balanced data,每个类都占10%比重;
  • Dist.2表明airplane,automobile,bird和cat各占8%,而其他类别各占12%…这个应该能看懂吧。

所以,现在有了11个训练集,接下来使用相同的CNN来训练,还是使用原来的test data进行测试。

Oversampling

文中使用的oversampling方式非常简单:

对于每一类,随机选出一些图片进行复制,直到该类图片数量与占最大比重的图片相等。

Results

Distribution Performace

此处输入图片的描述

Oversampling Performance

此处输入图片的描述

以上是经过oversampling之后的训练的CNN的performance,可以看出,几乎每个类都有提升,不过Dist.1(balanced training data)还是最高的。

Total Performance

此处输入图片的描述

平均以下每个Dist的准确率,得到如下表所示的准确率比较图,深色是imbalanced 的准确率,浅色是oversampling之后的准确率。

文章目标很明确,思路也很简单,并没有其他trick,我也就讲到这了。

总结一下,文章讲的事情和结论:

  1. 训练数据分布情况对CNN结果产生很大影响;
  2. 显然,balanced训练集是最优的,数据越不平衡,准确率越差;
  3. 使用Oversampling能够提升准确率;
3
0
查看评论

Fast convolutional neural network training using selective data sampling 笔记

论文目的提出了一种选择性抽样方法去训练CNN网络,用来检测眼底图片中的出血块。最终实现了训练时间从170个时间周期减少到60个时间周期,并且性能提高。实验使用了两个数据集-Kaggle and Messidor。实现步骤 图像预处理使用Circular template matching去获取感兴趣...
  • m0_37725945
  • m0_37725945
  • 2017-09-08 20:26
  • 148

Learning from Imbalanced Data 非均衡数据学习问题

本文分什么是非均衡数据、非均衡数据对算法的影响、怎样处理非均衡学习以及非均衡学习评估这四个方面进行叙述。在这里,正例或者星号代表多数类,负例或者圆圈代表少数类。 1、非均衡问题 非均衡问题有多重形式: (1)intrinsic:数据固有属性,数据集中的正负样本数目不太可能相等 (2)extr...
  • banbuduoyujian
  • banbuduoyujian
  • 2017-01-21 11:56
  • 1796

深度学习论文笔记:Fast R-CNN

知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测。 快速R-CNN采用多项创新技术来提高训练和测试速度,同时提高检测精度。 采用VGG16的网络:VGG: 16 layers of 3x3 convoluti...
  • JacobKong
  • JacobKong
  • 2017-02-18 21:13
  • 693

不平衡学习的方法 Learning from Imbalanced Data

之前做二分类预测的时候,遇到了正负样本比例严重不平衡的情况,甚至有些比例达到了50:1,如果直接在此基础上做预测,对于样本量较小的类的召回率会极低,这类不平衡数据该如何处理呢?不平衡数据的定义顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,数据集中的多数类 为SmaxS_{max},少数类...
  • shine19930820
  • shine19930820
  • 2017-01-06 23:31
  • 4030

深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记

深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记论文:Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1...
  • cokeonly
  • cokeonly
  • 2018-01-19 13:51
  • 39

cv 论文(CNN相关)

最近发现很多以前看的论文都忘了,所以想写点东西来整理下之前的paper,paper主要是cv(computer vision)方向的。     第一篇:Gradient-based learning applied to document recognition。这是...
  • txg198955
  • txg198955
  • 2014-11-10 17:35
  • 933

机器学习训练集之traing 、validation、test data set

Normally to perform supervised learning you need two types of data sets: In one dataset (your "gold standard") you have the input dat...
  • leiting_imecas
  • leiting_imecas
  • 2016-07-14 11:20
  • 1143

NIN-Network In Network阅读笔记

Reference: Min Lin,Qiang Chen,Shuicheng Yan.Network in network 经典CNN的卷积滤波器是一种广义线性模型。所以用CNN进行特征提取时,其实就隐含地假设了特征是线性可分的,可实际问题往往是难以线性可分的。
  • LIVEINTODAY
  • LIVEINTODAY
  • 2015-05-01 11:54
  • 5811

[资源帖]ICML2016 下载地址

从ICML官网上爬取HTTP源码.然后进行按要求修改成下载地址. 分享一下百度网盘下载地址:http://pan.baidu.com/s/1qYm3WrM密码:yhe9 失效后请与我联系:1511082629@nbu.edu.cn 下面是pdf名称与里边论文题目的映射关系shaha16.pd...
  • caicai_zju
  • caicai_zju
  • 2016-12-28 23:37
  • 7554

Faster R-CNN论文笔记——FR

在介绍Faster R-CNN之前,先来介绍一些前验知识,为Faster R-CNN做铺垫。 一、基于Region Proposal(候选区域)的深度学习目标检测算法 Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较...
  • qq_17448289
  • qq_17448289
  • 2016-10-20 12:41
  • 10382
    个人资料
    • 访问:377816次
    • 积分:3507
    • 等级:
    • 排名:第11202名
    • 原创:52篇
    • 转载:3篇
    • 译文:1篇
    • 评论:191条
    关于我


    北京航空航天大学 - 研三

    关注:计算机视觉、机器学习等

    微博:Libra_Leo_

    知乎专栏:AutoVision


    邮箱:cyh@buaa.edu.cn