细粒度图像识别文章 Picking Deep Filter Responses for Fine-grained Image Recognition 阅读笔记
原文章: Picking Deep Filter Responses for Fine-grained Image Recognition(CVPR2016)
摘要: 细粒度图像识别一直以来都是极具挑战性的任务。大多数细粒度图像识别算法都基于object和part级别的标注,来提高识别的准确率。文章提出了一种不需要任何object和part级别的标注的细粒度识别网络,并在CUB-200-2011上进行识别验证,并取得了很好的效果。
1 简介
1.1 背景
- 细粒度图像识别指的是在一个大类中的数个子类进行识别(例如识别不同鸟类的种类),它介于basic-level分类(常规的图像分类)和individual instances识别(人脸检测)之间。一个普通人对于前者可以很好地识别,但后者往往需要大量的专业知识,才能从一些细微的地方进行区分,没有接受过专业培训的人是很难做到的。
- 为了实现细粒度图像识别,大多数工作在训练和测试时都需要object或者part级别的标注,这些标注等于是告诉了网络需要从哪里寻找识别的突破口。有一些工作在测试时不额外使用标注,但是在训练阶段还是需要大量的带标注的图像,并且在大尺度图像识别时显得很吃力。因此,现在人们开始探索完全不使用标注的识别网络,但经常会面临需要从头开始训练网络、复杂度优化等问题。
1.2 文章贡献
- 作者做了两大贡献。第一个是提出了新颖的自动part detection方法,这个part检测方法有两点贡献:
- 第一,提出了新颖的检测学习初始化方法。作者先用原始的selective search方法提取一些patch,将它们送入VGG-M网络,查看conv4的输出。结果发现有些通道(channle)对一些特定图案相应,而有些响应十分混乱,对我们的任务没有帮助(见Figure 1)。作者的初始化方式的关键点就在于精巧地选择响应显著且一致的deep filters。