人类研究人员通过反复提问来削弱人工智能伦理

在这里插入图片描述
你如何让人工智能回答一个它不应该回答的问题?有很多这样的“越狱”技术,Anthropic的研究人员刚刚发现了一种新的技术,在这种技术中,如果你先用几十个危害较小的问题来启动它,就可以说服一个大型语言模型(LLM)告诉你如何制造炸弹。

他们称这种方法为“多次越狱”,并写了一篇关于它的论文,并告知了人工智能社区的同行,以便可以缓解它。

该漏洞是一个新漏洞,由最新一代 LLM 的“上下文窗口”增加导致。这就是他们可以在所谓的短期记忆中保存的数据量,曾经只有几句话,但现在有数千个单词,甚至整本书。

Anthropic的研究人员发现,如果提示中有很多任务的例子,那么这些具有大上下文窗口的模型往往在许多任务上表现得更好。因此,如果提示中有很多琐事问题(或启动文档,例如模型在上下文中的一大堆琐事),答案实际上会随着时间的推移而变得更好。因此,如果是第一个问题,它可能会出错,如果是第一百个问题,它可能会出错。

但是,在这种所谓的“情境学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得“更好”。因此,如果你要求它立即制造炸弹,它会拒绝。但是,如果你要求它回答其他 99 个危害较小的问题,然后要求它制造炸弹…它更有可能遵守。

在这里插入图片描述

为什么会这样?没有人真正理解 LLM 在权重的混乱中发生了什么,但显然有一些机制允许它专注于用户想要的东西,正如上下文窗口中的内容所证明的那样。如果用户想要琐事,当你问几十个问题时,它似乎会逐渐激活更多潜在的琐事力量。无论出于何种原因,用户要求数十个不恰当的答案也会发生同样的事情。

该团队已经将这次攻击告知了同行和竞争对手,它希望这将“培养一种文化,在LLM提供商和研究人员之间公开分享这样的漏洞利用。

对于他们自己的缓解措施,他们发现尽管限制上下文窗口有所帮助,但它也对模型的性能产生了负面影响。不能这样 - 所以他们在进入模型之前致力于对查询进行分类和上下文化。当然,这只是为了让你有一个不同的模型来愚弄…但在这个阶段,人工智能安全的目标移动是可以预料的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

V火居道士V

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值