NeurIPS 2024 | 文本引导注意力在视觉-语言模型零样本鲁棒性中的关键作用

ea8aeb726f7058bab27749d67e460bb8.gif

ff3c46c41584e1c02f5a8ad681a3e894.png

论文题目:

Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models

论文作者:

余璐(天津理工大学),章海洋(天津理工大学),徐常胜(中科院自动化所)

收录会议:

NeurIPS 2024

论文链接:

https://arxiv.org/abs/2410.21802

代码链接:

https://github.com/zhyblue424/TGA-ZSR

843e52a7620d5e0c37870f5c042f972c.png

前言概要

大规模预训练的视觉-语言模型(Pre-trained Vision-Language Models, VLMs)已经在人工智能领域展现了卓越的成功,这些模型通过融合视觉和文本数据,能够理解复杂的多模态信息。以 CLIP 模型为例,它证明了利用大型数据集进行预训练可以在多种跨模态任务中取得优越的性能。

然而,研究表明 CLIP 对于对抗攻击生成的对抗示例较为脆弱,可能导致错误分类或改变模型输出,这对下游任务的应用造成严重影响。随着视觉-语言模型在现实中的广泛应用,理解和缓解这种威胁对于保持人工智能系统的可靠性是至关重要的。

传统的提升模型对抗鲁棒性的方法通常依赖于对抗示例的生成,并通过这些样本对模型进行再训练以提高其对抗鲁棒性。这种方法面临两个主要挑战:一是需要访问原始数据以生成对抗示例;二是对抗示例的生成过程往往需要大量的计算资源。

因此,探索零样本对抗鲁棒性是一个潜在的研究方向,旨在提升模型鲁棒性的同时,无需直接访问原始数据或消耗大量资源生成对抗示例。而先前的研究未能利用视觉-语言模型中丰富的文本信息,从而限制了模型性能的进一步提升,并且在解释对抗攻击对模型鲁棒性的影响方面存在不足。

针对上述问题,作者首先通过比较对抗示例与干净示例的文本引导注意力图(text-guided attention maps),揭示了一个关键现象:尽管人眼难以区分两种示例,但它们的文本引导注意力图却显示出显著差异。

基于这一现象,作者提出了基于文本引导注意力的方法——Text-Guided Attention for Zero-Shot Robustness(TGA-ZSR),利用文本信息增强模型的对抗鲁棒性。

论文贡献总结如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值