这次阅读的文章是Picking Deep Filter Responses for Fine-grained Image Recognition,这篇文章是来自上海交通大学Xiaopeng Zhang等人的工作,该文章提出了一种对深度网络中的filter进行挑选的方法,基于挑选的filter的结果构建复杂特征表达。
0. 摘要
识别精细类别的子类别比较困难的原因是其在一些特别的部位上有比较高的局部和细微的不同。(due to the highly localized and subtle differences in some specific parts)
本文提出一种基于挑选深度filter response的两个步骤的框架。步骤流程如下图所示:
第一步是找出对于特别的部位(specific patterns)比较重要的较敏感的filters,然后通过选择的新的正样本和再训练的部件模型中交替迭代来学习一组部件检测器(a set of part detectors)。
第二步则是通过Spatially Weighted Fisher Vector(SWFV)编码来选择 filter response,这里根据Fisher Vector本身的重要性来给每个Fisher Vector分配一个权重,并将其合并