引言
在视觉语言模型(VLMs)展现出强大的指令跟随和视觉能力的同时,如何提升模型的安全能力是迈向 AGI 的重要问题。一些工作[1, 2]
发现通过引入安全相关的外部监督信号对大模型进行微调可以让其在安全相关的 Benchmark 上获得很低的 Attack Success Rate(ASR)。
然而,这些 Fine-Tuning-Based 方法在有用性-无害性的权衡中难以获得平衡,并且在需要更复杂的安全场景下出现了防御失效的现象。我们发现这是因为现有的方法无法提升模型的安全视觉推理能力,导致微调后的模型陷入瓶颈。
为了解决这个难点,我们构建了 Multi-Image Safety(MIS)数据集,包括训练集以提升模型安全相关的视觉感知、推理能力,测试集以评估 VLMs 在多图场景下的安全性。
论文标题:
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models
论文链接:
https://arxiv.org/pdf/2501.18533
项目主页:
https://dripnowhy.github.io/MIS/
代码链接:
https://github.com/DripNowhy/MIS
数据集链接:
https://huggingface.co/collections/Tuwhy/mis-679ae8748aa3744dfb0d453e
模型链接:
https://huggingface.co/collections/Tuwhy/mirage-679875ff7bb3855234c94b42
安全微调瓶颈
我们发现现有的安全微调方法包括纯文本微调和单图多模态微调,在有用性和安全性的权衡上难以取得平衡,此外在具有挑战性的安全任务(通过无害输入激发模型有害响应)上表现失效。
具体来说,如下表所示,在 MMStar[3]
,MMMU[4]
,MMT[5]
三个通用能力 Benchmark上,纯文本微调(Textual SFT[6]
)和单图多模态微调(VLGuard[1]
)在不同模型上都出现了能力下降的问题。
并且,在通过给相同意图的良性文本指令匹配不同安全图片从而构成 Safe 和 Unsafe 场景的 MSSBench 上