直播预告 | 大语言模型与视觉语言模型越狱行为及防御机制的回顾与展望

最新推荐文章于 2025-05-05 14:07:50 发布

PaperWeekly

最新推荐文章于 2025-05-05 14:07:50 发布

阅读量172

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247679596&idx=3&sn=7c5e073f3b184563995f21bfb2df971b&chksm=97d51473cf1e0680ec7a4ad9d0597fe92895489fa54e2ccb8534a99dc3c67a51bb9b938444fb&scene=126&sessionid=0

版权

AI安全说第1期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大语言模型与视觉语言模型

越狱行为及防御机制的回顾与展望

直播嘉宾

张沛炎

香港科技大学在读博士生

金海波

浙江工业大学在读博士生

直播时间

2024年08月31日（周六）

10:00-11:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

人工智能通过大语言模型（LLM）和视觉语言模型（VLM）的发展迅速进步，在多个技术领域带来了显著的提升。虽然这些模型增强了自然语言处理和视觉交互任务的能力，但它们的广泛应用也引发了关于安全性和伦理对齐的重要问题。

本次 talk 将广泛回顾这一新兴领域，重点探讨绕过 LLM 和 VLM 伦理和操作边界的刻意行为，即所谓的“越狱”行为，以及由此引发的防御机制的发展。我们将越狱行为分为七种不同类型，并详细阐述应对这些漏洞的防御策略。

通过这一全面的分析，我们识别了当前的研究空白，并提出了未来研究的方向，以加强 LLM 和 VLM 的安全框架。我们的研究结果强调了从越狱策略和防御解决方案两方面进行整合的必要性，以促进下一代语言模型的稳健、安全和可靠的发展环境。

嘉宾介绍

张沛炎

香港科技大学博士生

张沛炎，香港科技大学在读博士生，其博士导师是Sunghun Kim教授。他的研究重点是为智能信息系统开发值得信赖的机器学习方法，譬如隐私保护的推荐系统及其安全性研究。他在可信推荐系统领域的研究荣获2023年WSDM最佳论文奖 - 荣誉提名，并获得Amazon KDD Cup挑战赛（KDDCup 2023）第三名。目前，他致力于用大语言模型（LLM）构建推荐系统，同时探索自然且可信的解决方案，以保障大语言模型的安全性和可靠性。

金海波

浙江工业大学博士生

金海波，浙江工业大学在读博士生，伊利诺伊大学厄巴纳-香槟分校（UIUC）访问学者，其导师是Jinyin Chen教授和Haohan Wang教授。他的研究主要聚焦于深度学习与网络安全、图像与模式识别以及大模型漏洞挖掘等交叉学科领域，特别是针对以深度学习模型为核心的人工智能技术安全问题展开了深入研究。他专注于对抗攻防和可信人工智能的理论与技术研究，并在包括IEEE TDSC、ECCV、ICSE等顶级国际会议和期刊上发表了多篇高水平论文。目前，他致力于大语言模型（LLM）“越狱”行为的挖掘与防御技术的研究，力图为人工智能技术的安全应用提供更加可靠的保障。