论文笔记--TransFG

Paper: TransFG: A Transformer Architecture for Fine-Grained Recognition

文章链接:TransFG: A Transformer Architecture for Fine-Grained Recognition | Proceedings of the AAAI Conference on Artificial Intelligence

这是首个将Vision Transformer引入细粒度识别领域的模型。在ViT的基础上,针对细粒度识别任务,作者进行了一些改进。包括提出了一种适用于ViT的部件选择模块,帮助模型找到有辨识度的区域,去除冗余的信息;使用对比损失(Contrastive Loss)使模型更具辨识力。

上图为TransFG的网络结构图。TransFG的整体框架依赖于ViT。在ViT的基础上,作者做出了以下改动:(1)为了避免在划分patches时,对重要的有辨识度的区域进行了切分,采用滑动窗口的方式,进行重叠划分。这样能够保证任意小区域至少在一个patch内是完整的;(2)在最后一个Transformer Layer前,作者插入了一个部件选择模块。该模块对输入的tokens,只保留激活程度较高的tokens,视作更具辨识度的部分,和class token拼接后,输入到最后的Transformer Layer层。(3)在原有的交叉熵损失的基础上,作者还根据增加计算对比损失,来让模型更好地学到细微的差异。对比损失的作用,是根据每个batch内的训练样本,尽可能让同类别的相似度更大,不同类别的相似度更小。

在实验中,在ViT-B_16的主干网络下,这些改进在CUB-200-2011数据集上提高了1.4%的准确率,达到了91.7%,证明了这些方法在细粒度数据集上的有效性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值