#今日论文推荐#Shunted Self-Attention | 源于 PvT又高于PvT,解决小目标问题的ViT方法
最近的 Vision Transformer
(ViT
) 模型在各种计算机视觉任务中都展示了不错的性能,这要归功于其通过Self-Attention
对图像块或Token
的远程依赖关系进行建模的能力。然而,这些模型通常指定每一层内每个Token
特征的相似感受野。这种约束不可避免地限制了每个Self-Attention
层捕获多尺度特征的能力,从而导致在处理具有不同尺度的多个对象的图像时性能下降。
为了解决这个问题,本文提出了一种新颖的通用策略,称为Shunted Self-Attention
(SSA
),它允许 ViT
在每个注意力层的混合尺度上对注意力进行建模。SSA
的关键思想是将异构感受野大小注入到Token
中:在计算Self-Attention
矩阵之前,它选择性地合并Token
以表示更大的对象特征,同时保留某些Token
以保留细粒度的特征。这种新颖的合并方案使Self-Attention
能够学习不同大小目标之间的关系,同时减少Token
数量和计算成本。
论文题目:Shunted Self-Attention via Multi-Scale Token Aggregation
详细解读:https://www.aminer.cn/research_report/62b3ad1d7cb68b460fd93a50https://www.aminer.cn/research_report/62b3ad1d7cb68b460fd93a50
AMiner链接:https://www.aminer.cn/?f=cs