©PaperWeekly 原创 · 作者 | 国雍
单位 | 马普所
研究方向 | 计算机视觉
视觉 Transformer(Vision Transformer,ViT)在图像分类等任务中表现出色,但在面对常见的图像扰动(如噪声或模糊)时,其性能会显著下降。为此,来自马克思普朗克研究所的研究者对 ViT 的关键组成部分——自注意力机制进行研究分析,发现当前的视觉 transformer 模型在自注意力机制中存 “token overfocusing” 的问题,即注意力机制过度依赖于少数重要 token。然而这些 token 对图像扰动非常敏感。
为提高模型的鲁棒性,研究人员提出了两种通用技术:Token-aware Average Pooling (TAP) 和 Attention Diversification Loss (ADL)。所提出的方法可以应用于大多数 Vit 架构之上,在几乎不增加训练开销的情况下大大提升了分类精度和鲁棒性。此外,这种改进也可以很好地推广到其他下游任务,例如语义分割。本工作发表在 ICCV 2023,为提升 ViT 的鲁棒性提供了有效途径。
论文标题:
Robustifying Token Attention for Vision Transformers
论文地址:
https://arxiv.org/abs/2303.11126
注意力机制中的Token Overfocusing现象
以最近的 FAN 架构为例,本文将 FAN 最后一层的注意力可视化为注意力矩阵。第行表示第个输出 token “关注”哪些输入 token(列)——红色越深表示注意力得分越高。对于多头自注意力则通过对注意力头进行平均来可视化该矩阵。
由下图可观察到,列方向上的注意力通常非常稀疏,这意味着大多数输入 token 没有被关注到,并且每个输出 token 只关注相同的少数重要输入 token。本文将这种现象称为 Token Overfocusing。然而,当面对高斯噪声等干扰时,会导致模型注意力完全转移到其他不同的 token(图 1,第二列)。
这可以理解为原始 token 没有捕捉到稳定的信息。进一步定量分析发现,同一幅图像的干净版本和加入高斯噪声的版本之间的注意力图的余弦相似度非常低,即同一图像输入,注意力变化非常剧烈。这说明标准的自注意力机制对输入扰动极为不稳定。作者发现这种现象存在于各种架构中,包括 DeiT 和 RVT,并且还出现在语义分割等模型中。
▲ 图1 通过可视化角度观察模型对抗扰动图像的稳定性(左图为 196×196 的注意力矩阵可视化,右图为干净示例与扰动示例之间的注意力余弦相似度可视化)
解决思路与技术方案
为解决 Token Overfocusing 问题,本文提出了两个通用技术用于提高注意力机制的稳定性和鲁棒性:1)提出 Token-aware Average Pooling(TAP),通过学习每个 token 的 pooling 区