
论文阅读笔记-TransFG: A Transformer Architecture for Fine-Grained Recognition
目录摘要1.引言2.相关工作3.方法3.1 Vit作为特征提取器3.1.1 图像序列化3.1.2 patch嵌入3.2 TransFG 结构3.2.1 区域选择模块摘要细粒度视觉分类(FGVC)旨在从子类别中识别对象,这是一项非常具有挑战性的任务,因为其固有的微妙的类间差异。现有的工作主要通过重用主干网络提取检测到的识别区域的特征来解决这一问题。然而,这种策略不可避免地会使管道复杂化,并推动建议的区域包含对象的大部分部分,因此无法定位真正重要的部分。.








