直播预告 | 多模态生成模型的安全性与挑战:从推理、学习到泛化的探索

6f1a0b12696130cbbde995125b331ef5.gif

34338291b09a72ed93f780e5c602271b.png

 AI安全说 第4期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

多模态生成模型的安全性与挑战:

从推理、学习到泛化的探索

 直播嘉宾 

陈硕 

慕尼黑大学在读博士生

 直播时间 

2024年09月27日(周五)

19:30-21:00

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

dbe8d932566ca87c3512e740a4b6a357.png

 报告介绍 

多模态生成模型的安全性与挑战

从推理、学习到泛化的探索

多模态生成模型(如ChatGPT-4)展现出了令人惊叹的能力和广泛的应用潜力,为人工智能领域带来了新的突破。然而,伴随着这些强大功能而来的潜在安全风险和模型决策过程中的"黑箱"现象也引起了研究者们的高度关注。

这些模型在处理敏感信息、生成可能具有误导性的内容,以及可能被滥用于恶意目的等方面存在潜在风险。同时,由于模型的复杂性和不透明性,我们难以完全理解其内部运作机制,这进一步加剧了对其可靠性和可控性的担忧。

因此,在充分认识到多模态生成模型巨大潜力的同时,本次报告将从以下三个角度深入探讨多模态生成模型所面临的挑战和风险:

1. 多模态模型思维链推理(Chain-of-Thought Reasoning)能力的安全性:我们将重点研究当多模态模型在进行思维链推理时可能产生的潜在风险。特别是,我们将探讨如何在模型推理过程中出现不利于人类安全的推断时,我们进而提出 Stop-Reasoning 的对抗攻击方法,及时有效阻止这种情况的发生 [1]。 

2. 多模态模型上下文学习能力(In-context Learning)的机制理解:我们将分析多模态模型展现出色上下文学习能力的内在机制。这包括探讨模型如何有效整合和利用上下文信息,以及不同模态(如文本、图像)的信息在模型理解和生成过程中所扮演的角色。我们将特别关注上下文中不同模态信息对多模态模型性能的影响程度,以及如何优化模型以更好地利用多模态上下文信息 [2]。 

3. 多模态模型的泛化能力和安全性:我们将评估多模态模型在面对领域外分布(out-of-distribution)数据时的表现。这包括分析经过快速适配(Adaptation)的多模态模型在处理未见过的数据类型时的性能和鲁棒性 [3]。同时,我们将重点研究多模态模型面对"越狱" (Jailbreaking)攻击时的防御能力 [4],探讨如何增强模型的安全性,以抵御可能的恶意利用和攻击。这对于确保多模态模型在实际应用中的可靠性和安全性具有重要意义。

[1] Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images. COLM 2024

[2] Understanding and Improving In-Context Learning on Vision-language Models.  ME-FoMo @ ICLR 2024

[3] Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models. NeurIPS 2023

[4] Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? SeT LLM @ ICLR 2024

b0ecbb89bf6c89d58c18f308fa5c835b.png 嘉宾介绍 

d821c95fe99a167b4ce870716134c8fc.jpeg

陈硕

慕尼黑大学在读博士生

陈硕,慕尼黑大学(LMU Munich)在读博士生,其导师是 Volker Tresp 教授。他的研究聚焦于提升多模态生成式基础模型的安全性、鲁棒性和可理解性。具体而言,他致力于增强多模态基础模型对抗攻击的防御能力和泛化性能。他的研究成果已发表在 NeurIPS、EMNLP 和 COLM 等顶级国际会议上。目前,他正专注于探索多模态模型的思维链推理能力、上下文学习能力,以及对分布外数据的泛化能力。这些研究旨在为多模态生成式基础模型的安全应用提供更可靠的保障。

53c7229365c1b52221c7107c9435bf42.png

fecbb75be01becf78f9b57a64456d27e.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

b034422be4c0467d375454b1ea714709.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值