阅读小结:The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

标签: CNN 细力度分类 fine-grained
786人阅读 评论(0) 收藏 举报
分类:

The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

paper link: http://cn.arxiv.org/pdf/1511.06789.pdf

dataset: https://github.com/google/goldfinch


What:

同上一篇一样,这也是一篇关于细力度分类的paper。

通过加数据来做fine grain(这是以前大家不太想的。因为finegrain要求的标注难度很高。更不用说加上part或者语义分隔。

所以作者起的题目是unreasonable吧。)


How:

1.抓取类别list

对于鸟和昆虫(磷翅类:蝴蝶和甲虫),分别从wiki上抓了10,982种鸟和14,553种昆虫。

对于aircraft,是人为写了一个409类的list。

对于狗,混合了原来stanford-dog 120类和额外的395类。共515种狗。

2.直接在谷歌图片网站上搜索,获取图片

- 但是应该取多少图片?

- 作者注意到几个趋势:

- 往往数据集中已有的类别图片较多。但数量还是远远少于搜索到的结果。

- 像bird或者aircraft数据集中per class 图片的数量还是很多的。而butterfly不行。

- 数据集在 per class=800的时候都有明显下降。图片数量超过800的class很少。这似乎是一个公开搜索的限制。(因为作者搜集的数据超过800的也很少)

最终作者抓取了超过 9,800,000张图,给26,548 个类别  平均每类370+张图片。


- noise怎么办?

- noise可以分为两类:一类是cross-domain,比如鸟的图片里完全没有鸟;一类是cross-category,比如某种鸟的图像里含有了另一种鸟。

为了量化cross-domain noise,作者人工标注了1000张图片。虽然每一类的cross-domain noise不多,但有一个有趣的关联:随着每一类的图片增多,cross-domain noise在减少。作者得到一个假设,搜索结果其实是一个pool从中得到搜索结果,因此搜索结果慢慢变得准确率高了。

而cross-category noise就难了。(缺乏细力度的标注)作者用了最简单的办法,排除那些搜索结果重复的图片。(搜鹦鹉你出现了,搜犀鸟你又出现了,那你就是流氓)

小结:作者说他们也用过一些技术去除cross-domain,但是发现对结果影响不太重要。所以他们后来就保留了这些noise,主要去除cross-category


3.active learning

另外,作者还提出了一种收集数据集的方法。noise data+annotation。 在学习过程中慢慢加入新的图片。

sample selection: 是按照预先训练好的分类器的置信度分布去采样的,一般高conf的样本对的多。

而不是采样那些uncertain的图片(因为不确定的图片往往质量也不好,所以才被分在边界上嘛)


human annotation:

作者还设计了一个交互界面。



小结:文章整体提供了一个抓数据的方案。细节都make sense 的~


查看评论

噪声数据-The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

ECCV 2016 The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition当前 fine-grained ...
  • cv_family_z
  • cv_family_z
  • 2016-10-24 16:44:35
  • 911

On the Effectiveness of Visible Watermarks

最近在学习google的论文《On the Effectiveness of Visible Watermarks》,这篇论文发表在CVPR 2017。学习成果如下:(1)仔细研究了论文中的细节。(2...
  • program_developer
  • program_developer
  • 2018-03-21 10:50:41
  • 204

阅读小结:The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition paper link: http://cn.arx...
  • Layumi1993
  • Layumi1993
  • 2016-12-12 15:42:55
  • 786

Guru of the Week 条款01: 变量的初始化

GotW #01 Variable Initialization著者:Herb Sutter      翻译:kingofark[声明]:本文内容取自www.gotw.ca网站上的Guru of th...
  • kingofark
  • kingofark
  • 2001-10-23 20:07:00
  • 1171

循环神经网络The Unreasonable Effectiveness of Recurrent Neural Networks

There's something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my...
  • GarfieldEr007
  • GarfieldEr007
  • 2016-04-11 12:45:22
  • 1401

Bilinear CNN Models for Fine-grained Visual Recognition

下载地址:http://arxiv.org/pdf/1504.07889.pdf
  • yihaizhiyan
  • yihaizhiyan
  • 2015-05-03 11:00:47
  • 4113

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications论文笔记

MobileNet
  • hrsstudy
  • hrsstudy
  • 2017-12-11 19:28:39
  • 466

可视化神经网络的一些方法

原文为http://cs231n.github.io/understanding-cnn/    可视化CNN学到的东西 有一些方法可以用来理解和可视化CNN, 作为对深度学习不可解释的论...
  • Layumi1993
  • Layumi1993
  • 2016-12-21 18:11:16
  • 887

Unsupervised Template Learning for Fine-Grained Object Recognition(精读)

这篇博客是文献《Unsupervised Template Learning for Fine-Grained Object Recognition》的阅读笔记。...
  • shengno1
  • shengno1
  • 2014-12-10 17:43:13
  • 1622

[3 Jun 2015 ~ 9 Jun 2015] Deep Learning in arxiv

arXiv is an e-print service in the fields of physics, mathematics, computer science, quantitative bi...
  • sunbaigui
  • sunbaigui
  • 2015-06-09 14:55:06
  • 3885
    个人资料
    持之以恒
    等级:
    访问量: 9万+
    积分: 1291
    排名: 3万+
    关于我