CVPR 2021 TransFG: A Transformer Architecture for Fine-grained Recognition

动机
  1. 由于类间存在着细微的差异,细粒度视觉分类(FGVC)是一项非常具有挑战性的任务,它的目标是从子类中识别出目标。
  2. 近年来的研究主要集中在如何定位最有判别力的图像区域,并依靠这些区域来提高网络捕捉细微差异的能力。这些工作都需要一个专门设计的模块来提取候选区域,并且这些选定的区域需要再次通过主干网络进行传播以进行最终的分类。此外,一些被提取得候选区域往往包含了整个目标,判别力不够。而且,这种策略不可避免地使算法流程复杂化。
  3. 近年来,视觉transformer(ViT)在传统的分类任务中显示出了强大的性能。在目标检测、语义分割等下游任务中的一系列扩展工作,证实了vision transformer具有很强的全局和局部特征捕捉能力。
方法

在这里插入图片描述

transformer的自关注机制将每个图片块token链接到分类token。注意力链接的强弱可以直观地认为是token重要性的一个指标。为此,提出了一个基于VIT的简单而有效的框架TransTG。具体地说,利用先天的多头自注意机制,提出了一个部分选择模块来计算判别区域并去除冗余信息。然后,将选择的部分token与全局分类token作为输入序列连接到最后一个transformer层。为了进一步增大不同类别样本特征表示之间的距离,减小相同类别样本之间的距离,引入

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值