多模态基础大模型和大模型智能体的可信安全——ICML 2024 TiFA Workshop挑战赛启动！...-CSDN博客

关注公众号，发现CV技术之美

Workshop主页：https://icml-tifa.github.io/
挑战赛主页：https://icml-tifa.github.io/challenges

近期先进的多模态基础模型 (Multi-modal Foundation Models) 和智能体 (Agents) 正在凭借其多种模态的理解能力和越来越多的可用功能，在现实应用场景中展现出逐渐增长的能力。多模态基础模型包含多模态大语言模型和多模态生成模型。

前者是指基于大语言模型的多模态模型（例如Llava，QwenVL等），能够接收、推理和输出多种形式的信息，包括但不限于文本、图像、音频和视频。

后者是指一类生成模型（例如Sora和Latte），可以跨多种模式生成新内容，例如从文本描述生成图像或从音频和文本输入创建视频。而大模型智能体 (MFM-based Agents)，或者说具有较高自主性的智能体系统，是指能够在复杂环境中、在有限的直接监督下实现复杂目标的系统。

随着基础模型 (Multi-modal Foundation Models) 和智能体 (Agents) 的快速发展，了解和预防这些系统的漏洞及其引发的危害变得前所未有的重要。构建值得信赖的多模态基础模型 (Multi-modal Foundation Models) 和大模型智能体 (MFM-based Agents) 超越了此类模型的对抗鲁棒性，但也强调了主动风险评估、缓解、保障以及在系统开发和部署的整个生命周期中建立全面安全机制的重要性。

这种方法需要结合技术和社会技术策略，结合人工智能治理和监管见解来构建值得信赖的多模态基础模型和大模型智能体。

本Workshop讨论的话题包括但不限于：

对抗攻击与防御，数据投毒，劫持和大模型安全；
基础模型与对虚假相关性和不确定性估计的健壮性；
隐私、公平、问责和监管的技术方法；
透明度、可解释性和大模型监控；
真实性、事实性、诚实和避免大模型的阿谀奉承；
人工智能生成的结果的标识符，例如水印；
技术对齐/控制，例如可扩展的监督、表示控制和机器取消学习；
模型审核、红队和安全评估基准；
对抗恶意模型微调的措施；
新模态的引入带来新的安全挑战；

Workshop征稿

该workshop聚焦于多模态基础模型与大模型智能体的可信与安全性。本次征稿主题包括但不限于：

Adversarial attack and defense, poisoning, hijacking and security
Robustness to spurious correlations and uncertainty estimation
Technical approaches to privacy, fairness, accountability and regulation
Truthfulness, factuality, honesty and sycophancy
Transparency, interpretability and monitoring
Identifiers of AI-generated material, such as watermarking
Technical alignment / control , such as scalable overslight, representation control and machine unlearning
Model auditing, red-teaming and safety evaluation benchmarks
Measures against malicious model fine-tuning
Novel safety challenges with the introduction of new modalities

投稿规则

本次投稿将通过 OpenReview 平台实行双盲审稿。投稿的正文篇幅为 5 页，参考文献和补充材料篇幅不限。

投稿格式和模板遵循 ICML 2024 投稿指南：https://icml.cc/Conferences/2024/CallForPapers

投稿入口：https://openreview.net/group?id=ICML.cc/2024/Workshop/TiFA

时间节点

投稿提交开始：2024.5.11
投稿提交截止：2024.5.30
审稿结果公布：2024.6.17
最终版论文提交：2024.6.30
Workshop日：2024.7.27

TiFA挑战赛

两个赛道（可以同时参与）

多模态大模型攻击挑战赛

本次挑战赛基于多模态大型语言模型 (MLLM) 的有用性、诚实性和无害性标准，在人工精心挑选的数据集上进行。主要目标是成功攻击 Llava-1.5。参赛者必须更改输入图像或文本，或同时更改两者，以显著降低模型在有用性和诚实性方面的准确性以及在有害性方面的安全率。核心挑战涉及巧妙设计输入，促使 MLLM 生成不正确或有害的输出，从而评估模型抵御攻击的稳健性。

比赛官网: https://icml-tifa.github.io/challenges/track1
即日起-2024年6月5日，通过填写Google（https://forms.gle/Mvpz9u13BfokxDc28）表单，或发送申请邮件到icml.tifa.attack@gmail.com报名参赛
时间节点

时间点	日程
2024.5.28	多模态大模型攻击挑战赛开始
2024.6.5	注册截止
2024.6.5	挑战赛提交开始
2024.6.25	挑战赛提交结束
2024.6.27	最终结果发布
2024.7.10	优胜者技术报告截止

奖项设置
- 冠军：TBD
- 亚军：TBD
- 创新奖：TBD

Frontiers in Trustworthy Agents挑战赛

对智能体的可信评估不应局限于评估后端模型的安全性、真实性和稳健性，还应包括整个智能体系统内可靠且真实的交互。目前，多智能体系统可信性的研究还处于早期阶段，受到实验环境和基准不足的阻碍，这导致可信智能体系统的关键问题和潜在威胁仍不清楚，因此需要提出相应的实验环境与评测方案以更好地定义和预测安全威胁。所以本挑战赛旨在鼓励研究人员为可信的智能体及智能体系统提供可行且建设性的解决方案和独到的见解，以促进相关研究与应用推进。

比赛官网与详情：https://icml-tifa.github.io/challenges/track2
Proposal提交入口：https://openreview.net/group?id=ICML.cc/2024/Workshop/TiFA_Challenge
时间节点 (AOE时间)

时间点	日程
2024.5.28	挑战赛与proposal提交阶段开始
2024.6.17	proposal提交截止，评审阶段开始
2024.6.30	审稿结果公布，评审阶段结束，评选优秀工作，公布获奖结果
2024.7.5	最终版proposal提交
2024.7.27	Workshop日
2024.7.28起	为优秀工作提供支持或开展合作