ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性...

研究发现视觉Transformer模型在自注意力机制中存在token overfocusing问题,即过度依赖少数重要token,导致对图像扰动敏感。为解决此问题,提出了Token-aware Average Pooling (TAP)和Attention Diversification Loss (ADL)两种技术,通过学习每个token的pooling区域和增加注意力多样性,提升模型的稳定性和鲁棒性,几乎不增加训练开销。该方法已在多个ViT架构及语义分割任务上验证,表现优秀。
摘要由CSDN通过智能技术生成

04cb18e10854667165ca9203c905881e.gif

©PaperWeekly 原创 · 作者 | 国雍

单位 | 马普所

研究方向 | 计算机视觉

视觉 Transformer(Vision Transformer,ViT)在图像分类等任务中表现出色,但在面对常见的图像扰动(如噪声或模糊)时,其性能会显著下降。为此,来自马克思普朗克研究所的研究者对 ViT 的关键组成部分——自注意力机制进行研究分析,发现当前的视觉 transformer 模型在自注意力机制中存 “token overfocusing” 的问题,即注意力机制过度依赖于少数重要 token。然而这些 token 对图像扰动非常敏感。

为提高模型的鲁棒性,研究人员提出了两种通用技术:Token-aware Average Pooling (TAP) 和 Attention Diversification Loss (ADL)。所提出的方法可以应用于大多数 Vit 架构之上,在几乎不增加训练开销的情况下大大提升了分类精度和鲁棒性。此外,这种改进也可以很好地推广到其他下游任务,例如语义分割。本工作发表在 ICCV 2023,为提升 ViT 的鲁棒性提供了有效途径。

fd0ca3848e3e40d321b7c016d1aafcd8.png

论文标题:

Robustifying Token Attention for Vision Transformers

论文地址:

https://arxiv.org/abs/2303.11126


25b6ef2a4a9250437d074acb2776d817.png

注意力机制中的Token Overfocusing现象

以最近的 FAN 架构为例,本文将 FAN 最后一层的注意力可视化为注意力矩阵。第行表示第个输出 token “关注”哪些输入 token(列)——红色越深表示注意力得分越高。对于多头自注意力则通过对注意力头进行平均来可视化该矩阵。

由下图可观察到,列方向上的注意力通常非常稀疏,这意味着大多数输入 token 没有被关注到,并且每个输出 token 只关注相同的少数重要输入 token本文将这种现象称为 Token Overfocusing。然而,当面对高斯噪声等干扰时,会导致模型注意力完全转移到其他不同的 token(图 1,第二列)。

这可以理解为原始 token 没有捕捉到稳定的信息。进一步定量分析发现,同一幅图像的干净版本和加入高斯噪声的版本之间的注意力图的余弦相似度非常低,即同一图像输入,注意力变化非常剧烈。这说明标准的自注意力机制对输入扰动极为不稳定。作者发现这种现象存在于各种架构中,包括 DeiT 和 RVT,并且还出现在语义分割等模型中。

9d3b4298f888b824ea0ba90263c42383.png

▲ 图1 通过可视化角度观察模型对抗扰动图像的稳定性(左图为 196×196 的注意力矩阵可视化,右图为干净示例与扰动示例之间的注意力余弦相似度可视化)


6bde7d0d2e0fb0c0a2de05558e871ac2.png

解决思路与技术方案

为解决 Token Overfocusing 问题,本文提出了两个通用技术用于提高注意力机制的稳定性和鲁棒性:1)提出 Token-aware Average Pooling(TAP),通过学习每个 token 的 pooling 区

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值