动机
- 由于类间存在着细微的差异,细粒度视觉分类(FGVC)是一项非常具有挑战性的任务,它的目标是从子类中识别出目标。
- 近年来的研究主要集中在如何定位最有判别力的图像区域,并依靠这些区域来提高网络捕捉细微差异的能力。这些工作都需要一个专门设计的模块来提取候选区域,并且这些选定的区域需要再次通过主干网络进行传播以进行最终的分类。此外,一些被提取得候选区域往往包含了整个目标,判别力不够。而且,这种策略不可避免地使算法流程复杂化。
- 近年来,视觉transformer(ViT)在传统的分类任务中显示出了强大的性能。在目标检测、语义分割等下游任务中的一系列扩展工作,证实了vision transformer具有很强的全局和局部特征捕捉能力。
方法
transformer的自关注机制将每个图片块token链接到分类token。注意力链接的强弱可以直观地认为是token重要性的一个指标。为此,提出了一个基于VIT的简单而有效的框架TransTG。具体地说,利用先天的多头自注意机制,提出了一个部分选择模块来计算判别区域并去除冗余信息。然后,将选择的部分token与全局分类token作为输入序列连接到最后一个transformer层。为了进一步增大不同类别样本特征表示之间的距离,减小相同类别样本之间的距离,引入