#今日论文推荐#Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法

#今日论文推荐#Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法

最近的 Vision Transformer (ViT) 模型在各种计算机视觉任务中都展示了不错的性能,这要归功于其通过Self-Attention对图像块或Token的远程依赖关系进行建模的能力。然而,这些模型通常指定每一层内每个Token特征的相似感受野。这种约束不可避免地限制了每个Self-Attention层捕获多尺度特征的能力,从而导致在处理具有不同尺度的多个对象的图像时性能下降。
为了解决这个问题,本文提出了一种新颖的通用策略,称为Shunted Self-Attention(SSA),它允许 ViT 在每个注意力层的混合尺度上对注意力进行建模。SSA 的关键思想是将异构感受野大小注入到Token中:在计算Self-Attention矩阵之前,它选择性地合并Token以表示更大的对象特征,同时保留某些Token以保留细粒度的特征。这种新颖的合并方案使Self-Attention能够学习不同大小目标之间的关系,同时减少Token数量和计算成本。

论文题目:Shunted Self-Attention via Multi-Scale Token Aggregation
详细解读:https://www.aminer.cn/research_report/62b3ad1d7cb68b460fd93a50icon-default.png?t=M5H6https://www.aminer.cn/research_report/62b3ad1d7cb68b460fd93a50
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值