多模态安全偏好对齐数据集SPA-VL，全方位提升多模态大模型安全能力

最新推荐文章于 2025-04-10 10:00:00 发布

PaperWeekly

最新推荐文章于 2025-04-10 10:00:00 发布

阅读量2.1k

点赞数 23

文章标签：安全人工智能机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140564628

版权

随着人工智能技术的飞速发展，多模态模型（Large Multi-modal Models, MLLMs）凭借其在视觉与语言信息处理上的卓越能力，已经成为研究领域的热点话题。然而，技术进步的同时，这些模型的安全性问题也日益受到全球研究者的关注。

近期，中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队，针对这一挑战，提出了创新性的解决方案——SPA-VL 数据集，为多模态模型的安全性研究树立了新的里程碑。

SPA-VL 数据集是首个专为多模态模型安全性对齐训练设计的大规模、高质量数据集。SPA-VL 数据集由四个部分组成：一个包含 9 万样本的训练集、7 千样本的验证集，以及两个测试集——HarmEval（265 样本，专注于有害问题）和 HelpEval（主要评估模型的有用性）。SPA-VL 数据集不仅全面覆盖了广泛的有害内容类型，还通过精心设计的分类框架，为精确的有害内容检测和响应对齐提供了坚实的基础。其创新之处体现在以下几个方面：

全面性：数据集涵盖了 6 个主要领域、15 个次要类别和 53 个三级类别，全面覆盖了有害内容的各个方面。
多样性：从 12 个不同的多模态模型中收集回答，增强了数据的多样性，有效减少了特定模型偏见。同时，每张图片都配备了 3 种不同难度的问题，进一步丰富了数据的深度。
多目标对齐：在设计上同时考虑了模型的无害性和有用性，确保在提升安全性的同时，不牺牲模型的实用性。