随着人工智能技术的飞速发展,多模态模型(Large Multi-modal Models, MLLMs)凭借其在视觉与语言信息处理上的卓越能力,已经成为研究领域的热点话题。然而,技术进步的同时,这些模型的安全性问题也日益受到全球研究者的关注。
近期,中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队,针对这一挑战,提出了创新性的解决方案——SPA-VL 数据集,为多模态模型的安全性研究树立了新的里程碑。
SPA-VL 数据集是首个专为多模态模型安全性对齐训练设计的大规模、高质量数据集。SPA-VL 数据集由四个部分组成:一个包含 9 万样本的训练集、7 千样本的验证集,以及两个测试集——HarmEval(265 样本,专注于有害问题)和 HelpEval(主要评估模型的有用性)。SPA-VL 数据集不仅全面覆盖了广泛的有害内容类型,还通过精心设计的分类框架,为精确的有害内容检测和响应对齐提供了坚实的基础。其创新之处体现在以下几个方面:
全面性:数据集涵盖了 6 个主要领域、15 个次要类别和 53 个三级类别,全面覆盖了有害内容的各个方面。
多样性:从 12 个不同的多模态模型中收集回答,增强了数据的多样性,有效减少了特定模型偏见。同时,每张图片都配备了 3 种不同难度的问题,进一步丰富了数据的深度。
多目标对齐:在设计上同时考虑了模型的无害性和有用性,确保在提升安全性的同时,不牺牲模型的实用性。
▲ SPA-VL 数据概况,左图是有害内容分类的框架,右表是有害分类的每个二级分类的信息统计。UR% 是数据不安全的比例,CP 是 Choose Preference,RP 是 Reject Preference.
通过对 SPA-VL 数据集进行的一系列实验,研究团队发现其在提升多模态模型安全性方面具有显著效果。实验结果表明,经过 SPA-VL 训练的模型,在保持其基本能力的同时,显著提高了安全能力,同时增强了回答的有用性。
此外,实验还揭示了随着训练数据量的增加,模型性能呈现出正向增长的趋势。特别是在第一目标(无害性)达到饱和后,第二目标(有用性)仍在持续提高,这强调了大规模数据集在提升模型能力方面的关键作用。研究进一步指出,训练数据中需要同时包含表现较弱和较强的模型回答,这再次强调了数据多样性的重要性。