Feature Fusion Vision Transformer for Fine-Grained Visual Categorization【阅读笔记】

论文提出FFVT框架,通过MAWS模块有效选择并融合不同层的特征,解决ViT在细粒度分类中缺乏局部信息的问题。FFVT在多个FGVC数据集上表现出色,证明其在细粒度分类任务中的潜力。
摘要由CSDN通过智能技术生成

论文地址:https://www.bmvc2021-virtualconference.com/assets/papers/0685.pdf
代码地址:https://github.com/Markin-Wang/FFVT
好的文章:https://blog.csdn.net/weixin_46365033/article/details/128228199
好的文章:https://blog.csdn.net/weixin_42437114/article/details/129224723
好的文章:https://blog.csdn.net/zzc_zhuyu/article/details/119462030
该论文2021发布在BMVC上

先前的工作

大多数先前的研究都是通过明确选择判别部分或通过基于CNN的方法整合注意机制来实现这一目标的。

然而,这些方法增加了计算复杂度,使模型被包含最多目标的区域所主导。

近年来ViT,通过自关注机制将所有token的信息聚合并加权到class token上,使其非常适合FGVC。然而,深层的分类令牌更关注全局信息,缺乏FGVC所必需的局部和低级特征。

本文的创新:提出了一种新的纯基于Transformer的框架特征融合视觉变压器(FFVT),在该框架中,我们聚合了来自每个变压器层的重要token,以补偿局部、低级和中级信息。我们设计了一种新的token选择模块,称为相互关注权重选择(MAWS),以指导网络在不引入额外参数的情况下有效地选择具有区别性的令牌。

FFVT的作用:FFVT聚合来自低级、

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值