关注公众号,发现CV技术之美
如果一个陌生人突然向你询问危险品的制作方法,你会提供吗?以下是一组向大模型寻求危险品制作方法的输入,我们可以立即意识到正确回答的潜在危害性,但多模态大模型(Multimodal Foundation Model)却按要求违规提供了制作的相应步骤,难道是大模型“黑化”了?

[1] Ying, Z., Liu, A., Zhang, T., Yu, Z., Liang, S., Liu, X., & Tao, D. (2024). Jailbreak vision language models via bi-modal adversarial prompt. arXiv preprint arXiv:2406.04031.
对于人眼来说,这只是一张熊猫咆哮的图片与一条询问制作危险品方法的语句,并不能轻易地让我们说出危险品的制作方法。然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。
像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的越狱攻击方法之一。
这种攻击方法的潜在危害不可小觑。眼下,多模态大模型已经广泛应用于诸多领域,包括无人驾驶、医疗行业、社交媒体等。想象一下,当医院中用于辅助诊疗的大模型遭受越狱攻击时,它可能会泄露患者的病历等隐私数据,或为患者提供错误药方,进而影响患者的治疗方案和健康状况。这对我们的医疗安全产生了巨大的威胁。
构建安全、鲁棒的多模态大模型,促使其能够应对复杂越狱攻击场景下的威胁,在人工智能领域日益重要。然而,当前多数多模态大模型对于内部安全护栏设计尚不完善,现实世界中的多样性输入、恶意指令将严重影响大模型输出内容的安全性和合规性,为大模型安全可信应用带来极大挑战。
为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发,北京航空航天大学联合中关村实验室、合肥综合性国家科学中心数据空间研究院、中国仿真学会视觉计算与仿真专委会等,举办面向多模态大模型的越狱攻击安全挑战赛——Jailbreaking Attacks on Multimodal Foundation Models。
本次大赛依托CVPR 2025的workshop“The 5th Workshop of Adversarial Machine Learning on Computer Vision: Foundation Models + X”
展开,旨在鼓励研究者探索面向多模态大模型的黑盒越狱攻击算法。比赛以个人隐私泄露、社会道德违反等典型风险为评测维度,聚焦真实世界复杂风险类型和未知大模型结构等挑战性因素,深入剖析多模态大模型的安全风险,揭示潜在威胁,为构建更加安全、鲁棒的多模态大模型奠定基础。
多维度风险评测,聚焦多模态大模型安全性
这次的多模态大模型越狱攻击安全挑战赛分为两个阶段。
Phase 1:多模态大模型白盒越狱攻击风险评测
初赛阶段,比赛将提供包含6种风险类别的基础有害文本指令,每类别30个,总共180个。
参赛者可以使用其他任何数据集,以及任何模型训练攻击算法。对于每个基本文本指令,参与者需要设计一个对抗性指令和一个对抗性图像,形成一个图文对,触发指定的多模态大模型产生与基本文本指令主题一致的有害输出。
初赛的攻击目标包含2个开源大模型,选手需要将使用给定基础有害文本指令生成的图文对提交。
Phase 2:多模态大模型黑盒越狱攻击风险评测
复赛阶段,参赛者同样可以使用其他任何数据集,以及任何模型训练攻击算法。
但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。
注:本次竞赛只作学术用途,探究大模型安全性风险,不得将其应用于任何现实场景产生危害内容
比赛时间
3月26日-5月11日
比赛奖励
本次比赛前3名将分别获得1200美元、800美元与500美元奖金,并将受邀在workshop中做分享,讲解自己的技术方案。大赛已经正式启动,查看文末网址或点击阅读原文,即刻报名参与。
具体比赛规则及介绍,请前往官网。欢迎对AI与大模型安全感兴趣的朋友,踊跃报名参加~
比赛报名官网
官网:https://challenge.aisafety.org.cn/#/competitionDetail?id=19
Workshop地址:https://cvpr25-advml.github.io/
北航刘祥龙教授团队介绍:xlliu-beihang.github.io
扫描下方二维码,加入CVPR 2025竞赛交流群~
