纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

PaperWeekly

于 2024-12-16 12:31:04 发布

阅读量882

点赞数 6

文章标签：安全人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/144521222

版权

引言

如何为多模态大模型（MLLMs）的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。一些工作 [1, 2, 3] 表明使用简单的文本数据做对齐就能解决现有的多模态安全问题。我们进一步地发现仅仅使用简单的文本微调就能达到和大量数据进行的多模态安全对齐同样的安全效果。

我们发现这是因为现有的多模态安全 Benchmark 存在视觉安全信息泄漏的问题，导致了模型无需看图，仅仅依赖文本就能做出安全问答。

因此，我们构建了 Multimodal Visual Leakless Safety Benchmark（VLSBench），开发了一套数据生产流程，规避了视觉信息泄漏的问题。这个数据集给现有的 MLLMs 带来很大的安全挑战，并且规避了文本对齐这种捷径式的对齐方式。

论文标题：

VLSBench: Unveiling Visual Leakage in Multimodal Safety

论文链接：

https://arxiv.org/abs/2411.19939

项目主页：

http://hxhcreate.github.io/VLSBench

代码地址：

https://github.com/hxhcreate/VLSBench

开源数据：

https://huggingface.co/datasets/Foreshhh/vlsbench

问题发现

我们在多模态安全的测试数据中发现了一个普遍存在的问题：视觉安全信息泄漏（Visual Safety Information Leakage short as VSIL）。并且进一步验证这个问题的普遍性。

定量验证

我们对多模态下的视觉安全信息的泄漏给出了一个形式化的定义，给定文本描述和图片，让代表安全裁判模型，。多模态视觉安全泄漏也就代表着，对于一个有害的图文安全对。

具体而言，我们使用最新的 LlamaGuard-Vision [10] 模型来进行测试，代表图文有害的比例，代表纯文本有害的比例，结果如下图所示：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。