你如何让人工智能回答一个它不应该回答的问题?有很多这样的“越狱”技术,Anthropic的研究人员刚刚发现了一种新的技术,在这种技术中,如果你先用几十个危害较小的问题来启动它,就可以说服一个大型语言模型(LLM)告诉你如何制造炸弹。
他们称这种方法为“多次越狱”,并写了一篇关于它的论文,并告知了人工智能社区的同行,以便可以缓解它。
该漏洞是一个新漏洞,由最新一代 LLM 的“上下文窗口”增加导致。这就是他们可以在所谓的短期记忆中保存的数据量,曾经只有几句话,但现在有数千个单词,甚至整本书。
Anthropic的研究人员发现,如果提示中有很多任务的例子,那么这些具有大上下文窗口的模型往往在许多任务上表现得更好。因此,如果提示中有很多琐事问题(或启动文档,例如模型在上下文中的一大堆琐事),答案实际上会随着时间的推移而变得更好。因此,如果是第一个问题,它可能会出错,如果是第一百个问题,它可能会出错。
但是,在这种所谓的“情境学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得“更好”。因此,如果你要求它立即制造炸弹,它会拒绝。但是,如果你要求它回答其他 99 个危害较小的问题,然后要求它制造炸弹…它更有可能遵守。
为什么会这样?没有人真正理解 LLM 在权重的混乱中发生了什么,但显然有一些机制允许它专注于用户想要的东西,正如上下文窗口中的内容所证明的那样。如果用户想要琐事,当你问几十个问题时,它似乎会逐渐激活更多潜在的琐事力量。无论出于何种原因,用户要求数十个不恰当的答案也会发生同样的事情。
该团队已经将这次攻击告知了同行和竞争对手,它希望这将“培养一种文化,在LLM提供商和研究人员之间公开分享这样的漏洞利用。
对于他们自己的缓解措施,他们发现尽管限制上下文窗口有所帮助,但它也对模型的性能产生了负面影响。不能这样 - 所以他们在进入模型之前致力于对查询进行分类和上下文化。当然,这只是为了让你有一个不同的模型来愚弄…但在这个阶段,人工智能安全的目标移动是可以预料的。