在CNN中学习一个鉴别过滤库进行细粒度识别Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition

这次翻译的论文也是CVPR2018的,关于细粒度识别的论文,链接为:http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Learning_a_Discriminative_CVPR_2018_paper.pdf

摘要

与之前使用CNN特征的多级框架相比,最近的端到端的细粒度识别深度方法本质上提高了CNNs的中间层mid-level的学习能力。以前的方法是通过引入辅助网络将定位信息注入主分类网络来实现这一点,或者采用复杂的特征编码方法来捕获高阶特征统计数据。我们表明,mid-level代表学习可以通过学习了一个卷积过滤器库的CNN框架增强,这些过滤器没有额外的部分或边框注释就能捕捉特定类别的鉴别块。这样的过滤库结构良好,已合适初始化,并且通过一种新颖的卷积过滤器监督的非对称多流结构和一种非随机层初始化来有判别力的学习。实验结果显示,我们的方法在三个公开可用的细粒度识别数据集上(CUB-200-2011, Stanford Cars and FGVC-Aircraft)达到了顶尖的结果。提供消融研究和可视化以了解我们的方法。

1 引言

细粒度目标识别涉及区分相同超类别下(如鸟,车和飞机)的子类别,解决方法经常使用局部区域的信息来捕捉微小的不同。这个任务早期的深度学习应用在CNN特征上建立传统的多级框架;更多最近的基于CNN的方法通常端到端的训练来粗略地划分为两个类别:定位分类子网络和端到端的特征编码。

之前的多级框架使用低层low-level特征来寻找有区别的区域或者语义部分,从中构造一个中间层表示以进行分类。与两种基线相比,这些方法获得了更好的性能:(1)它们在手工制作特征方面(如SIFT)远远超过了对手,这意味着低层CNN特征远比之前的手工制作的更有效。(2)微调相同的作为特征提取的CNN,明显更优于基线。这进一步说明了学习中间层的代表,CNN的能力是有限的,且仍然有足够的空间提升。基于这些结果,端到端的框架旨在提升CNN的mid-level代表学习能力。

第一个类别,定位分类子网络,包含定位网络辅助的分类网络。分类网络的mid-level学习能力通过定位网络的定位信息(如分离位置和分割掩码)。这个分类的早期工作依靠附加语义部分注释,而最近只需要类别标签。不管注释如何,这些方法背后的共同动机是首先找到相关的部分,然后比较它们的外观。第一步要求语义部分(如鸟的头和身体)在对象类之间共享,鼓励这部分的代表相似;但是,为了区分,后者鼓励各类之间的部分表示不同。这种微妙的冲突意味着识别和定位能力的协调,这可能会降低单个集成网络的分类性能。实际上,这种权衡也会受到影响,因为训练通常涉及两个网络的交替优化,或者单独训练两个网络,然后进行联合调优。交替或多级策略使集成网络的调整复杂化。

第二个分类,端到端的特征编码,通过编码卷积特征图的高阶统计信息增强CNN的mid-level学习。当SIFT特性的Fisher Vector编码比微调的Alexnet在细粒度识别上大幅度提高时,对更高阶统计数据的端到端建模的需求变得明显。由此产生的架构已经成为文献中的标准基准。尽管有效,但与定位分类子网络相比,端到端编码网络在非刚性和刚性可视域中的可解释性和一致性较低。

本文处理了两类端到端网络所面临的问题。我们的主要贡献是以端到端的方式在CNN框架内明确地学习具有识别性的中间层块,而不需要额外的部件或边界框注释。这是通过将1×1过滤器视为小的“块检测器”来实现的,设计了一个非对称多流结构来利用块级别上的信息和全局外表,引入非随机层初始化的过滤器监督来激活可区分块的过滤器。从概念上讲,我们可区分的块不同于定位识别子网的部分,只要它们具有区分外观,就不必在类之间共享它们。因此,我们的网络完全专注于分类,避免了识别和定位之间的权衡。从技术上讲,一个被训练为识别性块检测器的卷积滤波器只会在一个类的特定区域产生高响应。

由此产生的框架通过引入一组具有识别性的过滤器来增强经典CNN的mid-level学习能力。在实践中,我们的框架保留了前两种方法的优势:
简单和有效。网络易于构建,一旦初始化,只需要进行单阶段训练。它超越了最先进的技术。具有较高的人的可解释性。这是通过各种消融研究和所学识别性块的可视化显示出来的。

跨不同的细粒度可视域和各种网络体系结构的一致性能。

2 相关工作

细粒度识别 细粒度识别的研究已经从基于手工制作的特征的多级框架转向具有CNN特征的多级框架,然后转向端到端的方法。定位分类子网络有定位网络,通常是R-CNN,FCN(全卷积网络)或STN(空间变换网络)的变体;还有识别网络,基于定位的识别。最近的进展是使用循环定位网络,比如LSTM或者特殊设计的循环构架,明确地回归部分的位置和规模。端到端的编码方法编码更高级的信息。经典的基准,双线性CNN使用对称的双流网络结构和双线性模块,该模块计算两个流输出的外部产品,以捕获二阶信息。[10]进一步观察到,通过将外部产物置于单流输出及其自身上,可以实现类似的性能。最近的一些进展减少了高特征维数或使用内核化模块提取高阶信息。其他人探索了一些方向,例如利用层次标签结构,结合视觉和文本信息,三维辅助识别,将人类引入循环和收集大量数据。
CNN中间层代表 层可视化表明,CNN中间层从边缘和角落到部分和物体来学习人类可解释的方法。关于这个方法的可判别性,有两个假设。第一,这些层中的一些神经元表现为“外婆细胞”,只存在于某些类别;第二,神经元形成一个分布式代码,其中单个神经元的固定模式不特别,可判别性分布在所有神经元中。正如[1]所观察到的那样,一个经典的CNN学习了“外婆细胞”和分布式代码的组合。这一观察得到了[56]的进一步支持,发现通过对卷积层生成的所有特征图进行适当的加权平均,可以有效地可视化用于分类的输入图像中的所有区域。注意[1]和[56]都是基于CNN的原始结构,为了更好的定位,表示学习

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值