直播预告 | 南洋理工大学博士生邓岳：多语言环境下的大语言模型越狱挑战

最新推荐文章于 2025-05-01 21:42:17 发布

PaperWeekly

最新推荐文章于 2025-05-01 21:42:17 发布

阅读量127

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247688456&idx=3&sn=f9fb14a250a26f81e0e40bfb99878a80&chksm=978ae5f3ae65509d73d19e2a9be79752ee1c517aea6a13df0af03a37c092e766eed5404e4b47&scene=126&sessionid=0

版权

AI安全说第5期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

多语言环境下的大语言模型越狱挑战

直播嘉宾

邓岳

新加坡南洋理工大学博士生

直播时间

2024年10月19日（周六）

10:00-11:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大语言模型（LLMs）在许多任务中展现了强大能力，但同时也带来了“越狱”问题，即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出，但大多数仅限于英语场景。

本次 talk 将探讨 LLMs 在多语言环境中的越狱问题，揭示两类风险：无意风险与有意攻击。无意风险指用户在使用非英语提示时，意外绕过安全机制；有意攻击则是恶意用户通过结合多语言提示与恶意指令，故意攻击模型。

实验表明，在无意风险下，低资源语言的有害内容概率是高资源语言的三倍。此外，低资源语言也可作为攻击大模型输出的有效工具。为应对此类挑战，我们提出了 Self-Defence框架，通过自动生成多语言数据进行安全微调。实验结果显示，该方法有效减少了不安全内容的生成。

嘉宾介绍

邓岳

新加坡南洋理工大学博士生

邓岳，新加坡南洋理工大学在读博士生，其导师是Sinno Jialin Pan教授。他的研究重点是大模型的安全性问题，例如针对大模型的“越狱”攻击和对检索器的攻击。他的相关研究成果已在顶级国际会议ICLR上发表。目前，他专注于大模型安全的深入攻防研究，致力于为大模型的安全落地提供更加全面的探索与保障。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。