上海AI Lab、天津大学发布MIS数据集,揭示多模态大模型安全微调瓶颈

24c799e50c33aefbdcd3c94175bdbfc1.gif

6a6c38be2e1435e30e5b6c16155a4c42.png

引言

在视觉语言模型(VLMs)展现出强大的指令跟随和视觉能力的同时,如何提升模型的安全能力是迈向 AGI 的重要问题。一些工作[1, 2]发现通过引入安全相关的外部监督信号对大模型进行微调可以让其在安全相关的 Benchmark 上获得很低的 Attack Success Rate(ASR)。

然而,这些 Fine-Tuning-Based 方法在有用性-无害性的权衡中难以获得平衡,并且在需要更复杂的安全场景下出现了防御失效的现象。我们发现这是因为现有的方法无法提升模型的安全视觉推理能力,导致微调后的模型陷入瓶颈。

为了解决这个难点,我们构建了 Multi-Image Safety(MIS)数据集,包括训练集以提升模型安全相关的视觉感知、推理能力,测试集以评估 VLMs 在多图场景下的安全性。

9e1db0a95d7f01bc94598df5839dbd88.png

论文标题:

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

论文链接:

https://arxiv.org/pdf/2501.18533

项目主页:

https://dripnowhy.github.io/MIS/

代码链接:

https://github.com/DripNowhy/MIS

数据集链接:

https://huggingface.co/collections/Tuwhy/mis-679ae8748aa3744dfb0d453e

模型链接:

https://huggingface.co/collections/Tuwhy/mirage-679875ff7bb3855234c94b42

c4101a57a2d312465eac842b3e0fbd8a.png

安全微调瓶颈

我们发现现有的安全微调方法包括纯文本微调和单图多模态微调,在有用性和安全性的权衡上难以取得平衡,此外在具有挑战性的安全任务(通过无害输入激发模型有害响应)上表现失效。

具体来说,如下表所示,在 MMStar[3],MMMU[4],MMT[5]三个通用能力 Benchmark上,纯文本微调(Textual SFT[6])和单图多模态微调(VLGuard[1])在不同模型上都出现了能力下降的问题。

并且,在通过给相同意图的良性文本指令匹配不同安全图片从而构成 Safe 和 Unsafe 场景的 MSSBench 上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值