如何让一个AI回答一个它本不应该作答的问题?
有很多这种所谓的“越狱”技术,而Anthropic的研究人员最近发现了一种新方法:如果首先用几十个危害性较小的问题对大型语言模型(LLM)进行预热,就能诱使其告诉你如何制造炸弹。
他们将这种方法称为“多轮越狱”,不仅撰写了相关论文,还将其告知了人工智能领域的同行们,以便能采取措施来减轻这一风险。
1.长文本越卷越离谱,不料却成“祸端”
这个新的漏洞是由于最新一代LLM的“上下文窗口”增大而产生的。上下文窗口是指模型可以暂存的数据量,以前只能存储几句话,而现在则能容纳数千词甚至整本书的内容。
Anthropic的研究团队发现,具有较大上下文窗口的模型在提示中包含大量该任务示例时,它们的表现往往会更好。
因此,如果在提示中有大量的小知识问题(或引导文件,如模型上下文中包含的一长串小知识列表),模型给出的答案实际上会随着时间的推移而变得更准确。所以,如果是一个事实问题,原本第一个问题,模型可能会回答错误,但如果是第一百个问题,它可能会回答正确。
然而,在这种被称为“上下文学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得更“好”。如果你一开始就要求它制造炸弹,它会拒绝。但如果先让它回答99个危害性较小的问题,然后再提出制造炸弹的要求……这时模型更有可能服从指令。
图片