直播预告 | 大语言模型与视觉语言模型越狱行为及防御机制的回顾与展望

cf92bc594e720a866b8f2332a27ec096.gif

849b7e833c98ce07b83a8b4b5c8cb85b.png

 AI安全说 第1期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

大语言模型与视觉语言模型

越狱行为及防御机制的回顾与展望

 直播嘉宾 

张沛炎

香港科技大学在读博士生

金海波

浙江工业大学在读博士生

 直播时间 

2024年08月31日(周六)

10:00-11:00

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

5439a0bb39c47e62074cddd1c30cab31.png

 报告介绍 

人工智能通过大语言模型(LLM)和视觉语言模型(VLM)的发展迅速进步,在多个技术领域带来了显著的提升。虽然这些模型增强了自然语言处理和视觉交互任务的能力,但它们的广泛应用也引发了关于安全性和伦理对齐的重要问题。

本次 talk 将广泛回顾这一新兴领域,重点探讨绕过 LLM 和 VLM 伦理和操作边界的刻意行为,即所谓的“越狱”行为,以及由此引发的防御机制的发展。我们将越狱行为分为七种不同类型,并详细阐述应对这些漏洞的防御策略。

通过这一全面的分析,我们识别了当前的研究空白,并提出了未来研究的方向,以加强 LLM 和 VLM 的安全框架。我们的研究结果强调了从越狱策略和防御解决方案两方面进行整合的必要性,以促进下一代语言模型的稳健、安全和可靠的发展环境。

ec04448c7d0b6fe00fc7eb9c084e2426.png 嘉宾介绍 

8a06b5ebfff253a8fa6bbd3e1dcb88fa.jpeg

张沛炎

香港科技大学博士生

张沛炎,香港科技大学在读博士生,其博士导师是Sunghun Kim教授。他的研究重点是为智能信息系统开发值得信赖的机器学习方法,譬如隐私保护的推荐系统及其安全性研究。他在可信推荐系统领域的研究荣获2023年WSDM最佳论文奖 - 荣誉提名,并获得Amazon KDD Cup挑战赛(KDDCup 2023)第三名。目前,他致力于用大语言模型(LLM)构建推荐系统,同时探索自然且可信的解决方案,以保障大语言模型的安全性和可靠性。

ea05682cbb6b16dfc0867df37040cafa.jpeg

金海波

浙江工业大学博士生

金海波,浙江工业大学在读博士生,伊利诺伊大学厄巴纳-香槟分校(UIUC)访问学者,其导师是Jinyin Chen教授和Haohan Wang教授。他的研究主要聚焦于深度学习与网络安全、图像与模式识别以及大模型漏洞挖掘等交叉学科领域,特别是针对以深度学习模型为核心的人工智能技术安全问题展开了深入研究。他专注于对抗攻防和可信人工智能的理论与技术研究,并在包括IEEE TDSC、ECCV、ICSE等顶级国际会议和期刊上发表了多篇高水平论文。目前,他致力于大语言模型(LLM)“越狱”行为的挖掘与防御技术的研究,力图为人工智能技术的安全应用提供更加可靠的保障。

38e57ae810be433903c2d707c37963e6.png

ccb977de79357ba34a9fd9507b52b01d.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

4b7aafbce37de7e26c6a17ee503508dd.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值