目录
摘要
细粒度视觉分类(FGVC)旨在从子类别中识别对象,这是一项非常具有挑战性的任务,因为其固有的微妙的类间差异。现有的工作主要通过重用主干网络提取检测到的识别区域的特征来解决这一问题。然而,这种策略不可避免地会使管道复杂化,并推动建议的区域包含对象的大部分部分,因此无法定位真正重要的部分。
近年来,视觉变压器(ViT)在传统的分类任务中表现出了较强的性能。transforme的self attention机制将每个patch任务链接到分类任务。在这项工作中,我们首先评估了ViT框架在细粒度识别设置中的有效性。然后出于注意链接的强度可以直观地认为是一个指标的重要性,我们进一步提出一个新颖的区域选择模块,可以应用于大多数的变压器架构。
我们整合所有transformer的attention权重到一个attention map去指导网络有效准确地选择有区别的图像块并计算它们的关系。利用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强变压器的模型命名为TransFG,并通过在五个流行的细粒度基准上进行实验来证明它的价值,在这些基准中我们实现了最先进的性能。定性结果为了更好地理解我们的模型。
(注释:bechmark -- 基准测试是一种测试代码性能的方法, 同时也可以用来识别某段代码的CPU或者内存效率问题. 许多开发人员会用基准测试来测试不同的并发模式, 或者用基准测试来辅助配置工作池的数量, 以保证能最大化系统的吞吐量 )
作者想解决的问题:传统的细粒度分类会使得管道复杂化,并且无法定位真正重要的部分
作者解决问题的理论/模型:提出了一个可以应用于大多数transofemr结构的part selection module,称为TransFG
这个方法的优越性(创新点)在哪?:新模块整合所有transformer的attention权重到一个attention map去指导网络有效准确地选择有区别的图像块并计算它们的关系。
1.引言
细粒度视觉分类旨在对给定对象类别的子类别进行分类,FGVC的性能近年来取得了稳定的进步。为了避免劳动密集型的部分注释,社区目前关注于弱监督的FGVC,只有图像级别的标签。方法现在大致可以分为定位方法和特征编码方法两类。与特征编码方法相比,定位方法的优势是显式地捕获子类之间的细微差异,更具可解释性,产生更好的结果。
早期的定位方法依赖于部分的注释来定位鉴别区域,而最近的工作主要采用区域建议网络(提出包含鉴别区域的边界框。在获得选定的图像区域后,将它们调整为预定义的大小,并再次通过主干网络转发,以获取信息丰富的局部特征。然而,这种机制忽略了选定区域之间的关系,因此不可避免地鼓励RPN提出大型边界框,其中包含的大部分对象无法定位真正重要的区域。有时,这些边界框甚至可以包含大面积的背景内容。并导致混淆。此外,与主干网络相比,优化目标不同的RPN模块使得网络更难训练,而主干网络的重用使整个管道变得复杂。
基于这一观点,在本文中,我们提出了第一个研究,探索了Vit在细粒度视觉分类中的潜力。我们发现,在FGVC上直接应用ViT已经产生了令人满意的结果,而根据FGVC的特性进行了大量的适应,可以进一步提高性能。具体来说,我们提出了一个可以找到区分区域和去除冗余信息的部分选择模块。引入了对比损失,使模型更具鉴别性。我们将这种新颖而简单的基于转换器的框架命名为TransFG,并在五个流行的细粒度视觉分类基准(CUB-200-2011、斯坦福汽车、斯坦福狗、nabirds、inat2017)上对其进行了广泛的评估。图1可以从性能比较中看到,我们的TransFG在大多数数据集上优于现有的SOTACNN方法。总之,我们在这项工作中做出了几个重要的贡献:
1.据我们所知,我们是第一个验证Vit在细粒度视觉分类上的有效性的人,它为RPN模型设计提供了一个替代主导CNN主干的替代方案。
2.我们引入了TransFG,这是一种用于细粒度视觉分类的新型神经架构,它自然地专注于对象中最具鉴别性的区域,并在几个基准测试中实现了SOTA的性能。
3.可视化结果说明了我们的TransFG准确捕获有鉴别图像区域的能力,并帮助我们更好地理解它是如何做出正确的预测。
为什么研究这个课题:早期的细粒度分类依赖于RPN,无法定位