引言
如何为多模态大模型(MLLMs)的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。一些工作 [1, 2, 3] 表明使用简单的文本数据做对齐就能解决现有的多模态安全问题。我们进一步地发现仅仅使用简单的文本微调就能达到和大量数据进行的多模态安全对齐同样的安全效果。
我们发现这是因为现有的多模态安全 Benchmark 存在视觉安全信息泄漏的问题,导致了模型无需看图,仅仅依赖文本就能做出安全问答。
因此,我们构建了 Multimodal Visual Leakless Safety Benchmark(VLSBench),开发了一套数据生产流程,规避了视觉信息泄漏的问题。这个数据集给现有的 MLLMs 带来很大的安全挑战,并且规避了文本对齐这种捷径式的对齐方式。
论文标题:
VLSBench: Unveiling Visual Leakage in Multimodal Safety
论文链接:
https://arxiv.org/abs/2411.19939
项目主页:
http://hxhcreate.github.io/VLSBench
代码地址:
https://github.com/hxhcreate/VLSBench
开源数据:
https://huggingface.co/datasets/Foreshhh/vlsbench
问题发现
我们在多模态安全的测试数据中发现了一个普遍存在的问题:视觉安全信息泄漏(Visual Safety Information Leakage short as VSIL)。并且进一步验证这个问题的普遍性。
定量验证
我们对多模态下的视觉安全信息的泄漏给出了一个形式化的定义,给定文本描述 和图片 ,让 代表安全裁判模型,。多模态视觉安全泄漏也就代表着 ,对于一个有害的图文安全对 。
具体而言,我们使用最新的 LlamaGuard-Vision [10] 模型来进行测试, 代表图文有害的比例, 代表纯文本有害的比例,结果如下图所示: