NeurIPS 2024 | 文本引导注意力在视觉-语言模型零样本鲁棒性中的关键作用-CSDN博客

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/145218023

论文题目：

Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models

论文作者：

余璐（天津理工大学），章海洋（天津理工大学），徐常胜（中科院自动化所）

收录会议：

NeurIPS 2024

论文链接：

https://arxiv.org/abs/2410.21802

代码链接：

https://github.com/zhyblue424/TGA-ZSR

前言概要

大规模预训练的视觉-语言模型（Pre-trained Vision-Language Models, VLMs）已经在人工智能领域展现了卓越的成功，这些模型通过融合视觉和文本数据，能够理解复杂的多模态信息。以 CLIP 模型为例，它证明了利用大型数据集进行预训练可以在多种跨模态任务中取得优越的性能。

然而，研究表明 CLIP 对于对抗攻击生成的对抗示例较为脆弱，可能导致错误分类或改变模型输出，这对下游任务的应用造成严重影响。随着视觉-语言模型在现实中的广泛应用，理解和缓解这种威胁对于保持人工智能系统的可靠性是至关重要的。

传统的提升模型对抗鲁棒性的方法通常依赖于对抗示例的生成，并通过这些样本对模型进行再训练以提高其对抗鲁棒性。这种方法面临两个主要挑战：一是需要访问原始数据以生成对抗示例；二是对抗示例的生成过程往往需要大量的计算资源。

因此，探索零样本对抗鲁棒性是一个潜在的研究方向，旨在提升模型鲁棒性的同时，无需直接访问原始数据或消耗大量资源生成对抗示例。而先前的研究未能利用视觉-语言模型中丰富的文本信息，从而限制了模型性能的进一步提升，并且在解释对抗攻击对模型鲁棒性的影响方面存在不足。

针对上述问题，作者首先通过比较对抗示例与干净示例的文本引导注意力图（text-guided attention maps），揭示了一个关键现象：尽管人眼难以区分两种示例，但它们的文本引导注意力图却显示出显著差异。

基于这一现象，作者提出了基于文本引导注意力的方法——Text-Guided Attention for Zero-Shot Robustness（TGA-ZSR），利用文本信息增强模型的对抗鲁棒性。

论文贡献总结如下：