ICCV 2023 | token过度聚焦暴露注意力机制弱点，两种模块设计增强视觉Transformer鲁棒性...

最新推荐文章于 2024-10-15 13:20:57 发布

PaperWeekly

最新推荐文章于 2024-10-15 13:20:57 发布

阅读量383

点赞数 1

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132094737

版权

研究发现视觉Transformer模型在自注意力机制中存在token overfocusing问题，即过度依赖少数重要token，导致对图像扰动敏感。为解决此问题，提出了Token-aware Average Pooling (TAP)和Attention Diversification Loss (ADL)两种技术，通过学习每个token的pooling区域和增加注意力多样性，提升模型的稳定性和鲁棒性，几乎不增加训练开销。该方法已在多个ViT架构及语义分割任务上验证，表现优秀。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 国雍

单位 | 马普所

研究方向 | 计算机视觉

视觉 Transformer（Vision Transformer，ViT）在图像分类等任务中表现出色，但在面对常见的图像扰动（如噪声或模糊）时，其性能会显著下降。为此，来自马克思普朗克研究所的研究者对 ViT 的关键组成部分——自注意力机制进行研究分析，发现当前的视觉 transformer 模型在自注意力机制中存 “token overfocusing” 的问题，即注意力机制过度依赖于少数重要 token。然而这些 token 对图像扰动非常敏感。

为提高模型的鲁棒性，研究人员提出了两种通用技术：Token-aware Average Pooling (TAP) 和 Attention Diversification Loss (ADL)。所提出的方法可以应用于大多数 Vit 架构之上，在几乎不增加训练开销的情况下大大提升了分类精度和鲁棒性。此外，这种改进也可以很好地推广到其他下游任务，例如语义分割。本工作发表在 ICCV 2023，为提升 ViT 的鲁棒性提供了有效途径。

论文标题：

Robustifying Token Attention for Vision Transformers

论文地址：

https://arxiv.org/abs/2303.11126

注意力机制中的Token Overfocusing现象

以最近的 FAN 架构为例，本文将 FAN 最后一层的注意力可视化为注意力矩阵。第行表示第个输出 token “关注”哪些输入 token（列）——红色越深表示注意力得分越高。对于多头自注意力则通过对注意力头进行平均来可视化该矩阵。

由下图可观察到，列方向上的注意力通常非常稀疏，这意味着大多数输入 token 没有被关注到，并且每个输出 token 只关注相同的少数重要输入 token。本文将这种现象称为 Token Overfocusing。然而，当面对高斯噪声等干扰时，会导致模型注意力完全转移到其他不同的 token（图 1，第二列）。

这可以理解为原始 token 没有捕捉到稳定的信息。进一步定量分析发现，同一幅图像的干净版本和加入高斯噪声的版本之间的注意力图的余弦相似度非常低，即同一图像输入，注意力变化非常剧烈。这说明标准的自注意力机制对输入扰动极为不稳定。作者发现这种现象存在于各种架构中，包括 DeiT 和 RVT，并且还出现在语义分割等模型中。