直播预告 | 南洋理工大学博士生邓岳:多语言环境下的大语言模型越狱挑战

bbd36a53dab6b2518eb221ab543c74f1.gif

af6fb63018147babb9b713b065b77640.png

 AI安全说 第5期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

多语言环境下的大语言模型越狱挑战

 直播嘉宾 

邓岳

新加坡南洋理工大学博士生

 直播时间 

2024年10月19日(周六)

10:00-11:00

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

dbbdda55be07154290b2f0a5b3b861a1.png

 报告介绍 

大语言模型(LLMs)在许多任务中展现了强大能力,但同时也带来了“越狱”问题,即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出,但大多数仅限于英语场景。 

本次 talk 将探讨 LLMs 在多语言环境中的越狱问题,揭示两类风险:无意风险与有意攻击。无意风险指用户在使用非英语提示时,意外绕过安全机制;有意攻击则是恶意用户通过结合多语言提示与恶意指令,故意攻击模型。

实验表明,在无意风险下,低资源语言的有害内容概率是高资源语言的三倍。此外,低资源语言也可作为攻击大模型输出的有效工具。为应对此类挑战,我们提出了 Self-Defence框架,通过自动生成多语言数据进行安全微调。实验结果显示,该方法有效减少了不安全内容的生成。

c00519eaa08e7556344b999db6f63f82.png 嘉宾介绍 

69ded36a483d22eb7e60f0ec338bec45.jpeg

邓岳

新加坡南洋理工大学博士生

邓岳,新加坡南洋理工大学在读博士生,其导师是Sinno Jialin Pan教授。他的研究重点是大模型的安全性问题,例如针对大模型的“越狱”攻击和对检索器的攻击。他的相关研究成果已在顶级国际会议ICLR上发表。目前,他专注于大模型安全的深入攻防研究,致力于为大模型的安全落地提供更加全面的探索与保障。

8808a20c8faff1d222f0e80a8175d4f2.png

d3231845a17b67e30dd176aa3272a80e.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

1a449a92bcc5b8a59d1e5fea4ec19131.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值