​纯文本对齐就能解决多模态安全问题?上海AI Lab发布VLSBench给出否定答案

outside_default.png

ba8e6c769977685f9cfbc636dae7bced.png

引言

如何为多模态大模型(MLLMs)的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。一些工作 [1, 2, 3] 表明使用简单的文本数据做对齐就能解决现有的多模态安全问题。我们进一步地发现仅仅使用简单的文本微调就能达到和大量数据进行的多模态安全对齐同样的安全效果。

我们发现这是因为现有的多模态安全 Benchmark 存在视觉安全信息泄漏的问题,导致了模型无需看图,仅仅依赖文本就能做出安全问答。

因此,我们构建了 Multimodal Visual Leakless Safety Benchmark(VLSBench),开发了一套数据生产流程,规避了视觉信息泄漏的问题。这个数据集给现有的 MLLMs 带来很大的安全挑战,并且规避了文本对齐这种捷径式的对齐方式。

528f6ff0102873d8a5ca41c52fa072a5.png

论文标题:

VLSBench: Unveiling Visual Leakage in Multimodal Safety

论文链接:

https://arxiv.org/abs/2411.19939

项目主页:

http://hxhcreate.github.io/VLSBench

代码地址:

https://github.com/hxhcreate/VLSBench

开源数据:

https://huggingface.co/datasets/Foreshhh/vlsbench

f4407df255269790abaa3ee12f7fbfd5.png

问题发现

我们在多模态安全的测试数据中发现了一个普遍存在的问题:视觉安全信息泄漏(Visual Safety Information Leakage short as VSIL)。并且进一步验证这个问题的普遍性。

定量验证

我们对多模态下的视觉安全信息的泄漏给出了一个形式化的定义,给定文本描述 和图片 ,让 代表安全裁判模型,。多模态视觉安全泄漏也就代表着 ,对于一个有害的图文安全对 。

具体而言,我们使用最新的 LlamaGuard-Vision [10] 模型来进行测试, 代表图文有害的比例, 代表纯文本有害的比例,结果如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值