大模型新漏洞!Anthropic警告:新式“多轮越狱”攻破AI防线,或祸起长文本

研究人员发现通过预热大型语言模型回答较小危害问题,再提问敏感话题,模型可能被诱导执行不当任务。新方法被称为多轮越狱,虽然不是紧迫问题,但强调了对AI安全的早期预防和模型伦理训练的必要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如何让一个AI回答一个它本不应该作答的问题?

有很多这种所谓的“越狱”技术,而Anthropic的研究人员最近发现了一种新方法:如果首先用几十个危害性较小的问题对大型语言模型(LLM)进行预热,就能诱使其告诉你如何制造炸弹。

他们将这种方法称为“多轮越狱”,不仅撰写了相关论文,还将其告知了人工智能领域的同行们,以便能采取措施来减轻这一风险。

1.长文本越卷越离谱,不料却成“祸端”

这个新的漏洞是由于最新一代LLM的“上下文窗口”增大而产生的。上下文窗口是指模型可以暂存的数据量,以前只能存储几句话,而现在则能容纳数千词甚至整本书的内容。

Anthropic的研究团队发现,具有较大上下文窗口的模型在提示中包含大量该任务示例时,它们的表现往往会更好。

因此,如果在提示中有大量的小知识问题(或引导文件,如模型上下文中包含的一长串小知识列表),模型给出的答案实际上会随着时间的推移而变得更准确。所以,如果是一个事实问题,原本第一个问题,模型可能会回答错误,但如果是第一百个问题,它可能会回答正确。

然而,在这种被称为“上下文学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得更“好”。如果你一开始就要求它制造炸弹,它会拒绝。但如果先让它回答99个危害性较小的问题,然后再提出制造炸弹的要求……这时模型更有可能服从指令。

图片

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凭空起惊雷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值