关闭

阅读小结:The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

标签: CNN细力度分类fine-grained
714人阅读 评论(0) 收藏 举报
分类:

The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

paper link: http://cn.arxiv.org/pdf/1511.06789.pdf

dataset: https://github.com/google/goldfinch


What:

同上一篇一样,这也是一篇关于细力度分类的paper。

通过加数据来做fine grain(这是以前大家不太想的。因为finegrain要求的标注难度很高。更不用说加上part或者语义分隔。

所以作者起的题目是unreasonable吧。)


How:

1.抓取类别list

对于鸟和昆虫(磷翅类:蝴蝶和甲虫),分别从wiki上抓了10,982种鸟和14,553种昆虫。

对于aircraft,是人为写了一个409类的list。

对于狗,混合了原来stanford-dog 120类和额外的395类。共515种狗。

2.直接在谷歌图片网站上搜索,获取图片

- 但是应该取多少图片?

- 作者注意到几个趋势:

- 往往数据集中已有的类别图片较多。但数量还是远远少于搜索到的结果。

- 像bird或者aircraft数据集中per class 图片的数量还是很多的。而butterfly不行。

- 数据集在 per class=800的时候都有明显下降。图片数量超过800的class很少。这似乎是一个公开搜索的限制。(因为作者搜集的数据超过800的也很少)

最终作者抓取了超过 9,800,000张图,给26,548 个类别  平均每类370+张图片。


- noise怎么办?

- noise可以分为两类:一类是cross-domain,比如鸟的图片里完全没有鸟;一类是cross-category,比如某种鸟的图像里含有了另一种鸟。

为了量化cross-domain noise,作者人工标注了1000张图片。虽然每一类的cross-domain noise不多,但有一个有趣的关联:随着每一类的图片增多,cross-domain noise在减少。作者得到一个假设,搜索结果其实是一个pool从中得到搜索结果,因此搜索结果慢慢变得准确率高了。

而cross-category noise就难了。(缺乏细力度的标注)作者用了最简单的办法,排除那些搜索结果重复的图片。(搜鹦鹉你出现了,搜犀鸟你又出现了,那你就是流氓)

小结:作者说他们也用过一些技术去除cross-domain,但是发现对结果影响不太重要。所以他们后来就保留了这些noise,主要去除cross-category


3.active learning

另外,作者还提出了一种收集数据集的方法。noise data+annotation。 在学习过程中慢慢加入新的图片。

sample selection: 是按照预先训练好的分类器的置信度分布去采样的,一般高conf的样本对的多。

而不是采样那些uncertain的图片(因为不确定的图片往往质量也不好,所以才被分在边界上嘛)


human annotation:

作者还设计了一个交互界面。



小结:文章整体提供了一个抓数据的方案。细节都make sense 的~


0
0
查看评论

噪声数据-The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

ECCV 2016 The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition当前 fine-grained recognition的主流方法分两步:1)训练数据的收集和标定,2)模型的训练。本文提出的使用从网...
  • cv_family_z
  • cv_family_z
  • 2016-10-24 16:44
  • 854

The Application of Two-level Attention Models in CNN for Fine-grained Image Classification

这篇文章主要讲细粒度分类问题。普通的分类问题是类间差距较大,例如将一幅图像分类为猫或狗。不同于普通分类,细粒度分类问题类与类之间差异很小,比如将鸟按品种分类。两个不同品种的鸟之间的差异可能仅仅在于鸟的眼睛,嘴巴,腿等部位,其他部位区分度很小。这也造成了细粒度分类问题比普通分类问题难。自深度学习发展以...
  • u010772289
  • u010772289
  • 2016-11-07 19:50
  • 414

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

这次阅读的文章是Picking Deep Filter Responses for Fine-grained Image Recognition,这篇文章是来自上海交通大学Xiaopeng Zhang等人的工作,该文章提出了一种对深度网络中的filter进行挑选的方法,基于挑选的filter的结果构...
  • lc013
  • lc013
  • 2016-10-08 22:56
  • 1471

循环神经网络The Unreasonable Effectiveness of Recurrent Neural Networks

There's something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my first recurrent network for Image Capt...
  • GarfieldEr007
  • GarfieldEr007
  • 2016-04-11 12:45
  • 1284

RNN的神奇之处(The Unreasonable Effectiveness of Recurrent Neural Networks)

本文译自http://karpathy.github.io/2015/05/21/rnn-effectiveness/。
  • menc15
  • menc15
  • 2017-12-11 18:54
  • 316

多任务学习“Fine-grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach”

精细图像分类需要大量样本标记,但有些样本不容易标记。论文使用容易标记的样本,研究domain adaptation解决易获取样本与自然场景样本数据集转换的问题。这其中多任务的属性学习被用来提升性能。论文要解决的问题示例,先获取有标记的样本,实际应用的场景有少许样本有标记,使用domain adapt...
  • cv_family_z
  • cv_family_z
  • 2017-11-02 16:26
  • 330

Fine-Grained Crowdsourcing for Fine-Grained Recognition(精读)

一.文献名字和作者      Fine-Grained Crowdsourcing for Fine-Grained Recognition, Jia Deng, Jonathan Krause, Li Fei-Fei, CVPR2013   &...
  • shengno1
  • shengno1
  • 2014-11-26 19:36
  • 1369

Bilinear CNN Models for Fine-grained Visual Recognition

下载地址:http://arxiv.org/pdf/1504.07889.pdf
  • yihaizhiyan
  • yihaizhiyan
  • 2015-05-03 11:00
  • 3657

BoxCars: 3D Boxes as CNN Input for Improved Fine-Grained Vehicle Recognition

CVPR 2016 本文没有开源代码相关文档和代码 https://medusa.fit.vutbr.cz/traffic/research-topics/fine-grained-vehicle-recognition/unsupervised-processing-of-vehicl...
  • cv_family_z
  • cv_family_z
  • 2016-08-17 15:38
  • 1795

论文笔记 | 基于双线性CNN模型的细粒度视觉识别

细粒度视觉识别之双线性CNN模型 [1] Lin T Y, RoyChowdhury A, Maji S. Bilinear cnn models for fine-grained visual recognition[C]//Proceedings of the IEEE Internation...
  • u014593748
  • u014593748
  • 2018-01-11 16:22
  • 117
    个人资料
    • 访问:76958次
    • 积分:1155
    • 等级:
    • 排名:千里之外
    • 原创:33篇
    • 转载:0篇
    • 译文:3篇
    • 评论:45条
    文章分类
    关于我