上海AI Lab、天津大学发布MIS数据集，揭示多模态大模型安全微调瓶颈

PaperWeekly

于 2025-02-11 20:44:38 发布

阅读量715

点赞数 24

文章标签：人工智能安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/145583536

版权

引言

在视觉语言模型（VLMs）展现出强大的指令跟随和视觉能力的同时，如何提升模型的安全能力是迈向 AGI 的重要问题。一些工作[1, 2]发现通过引入安全相关的外部监督信号对大模型进行微调可以让其在安全相关的 Benchmark 上获得很低的 Attack Success Rate（ASR）。

然而，这些 Fine-Tuning-Based 方法在有用性-无害性的权衡中难以获得平衡，并且在需要更复杂的安全场景下出现了防御失效的现象。我们发现这是因为现有的方法无法提升模型的安全视觉推理能力，导致微调后的模型陷入瓶颈。

为了解决这个难点，我们构建了 Multi-Image Safety（MIS）数据集，包括训练集以提升模型安全相关的视觉感知、推理能力，测试集以评估 VLMs 在多图场景下的安全性。

论文标题：

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

论文链接：

https://arxiv.org/pdf/2501.18533

项目主页：

https://dripnowhy.github.io/MIS/

代码链接：

https://github.com/DripNowhy/MIS

数据集链接：

https://huggingface.co/collections/Tuwhy/mis-679ae8748aa3744dfb0d453e

模型链接：

https://huggingface.co/collections/Tuwhy/mirage-679875ff7bb3855234c94b42

安全微调瓶颈

我们发现现有的安全微调方法包括纯文本微调和单图多模态微调，在有用性和安全性的权衡上难以取得平衡，此外在具有挑战性的安全任务（通过无害输入激发模型有害响应）上表现失效。

具体来说，如下表所示，在 MMStar[3]，MMMU[4]，MMT[5]三个通用能力 Benchmark上，纯文本微调（Textual SFT[6]）和单图多模态微调（VLGuard[1]）在不同模型上都出现了能力下降的问题。

并且，在通过给相同意图的良性文本指令匹配不同安全图片从而构成 Safe 和 Unsafe 场景的 MSSBench 上

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。