人类研究人员通过反复提问来削弱人工智能伦理_对人工智能进行重复提问-CSDN博客

本文链接：https://blog.csdn.net/gao571920436/article/details/137345214

在这里插入图片描述
你如何让人工智能回答一个它不应该回答的问题？有很多这样的“越狱”技术，Anthropic的研究人员刚刚发现了一种新的技术，在这种技术中，如果你先用几十个危害较小的问题来启动它，就可以说服一个大型语言模型（LLM）告诉你如何制造炸弹。

他们称这种方法为“多次越狱”，并写了一篇关于它的论文，并告知了人工智能社区的同行，以便可以缓解它。

该漏洞是一个新漏洞，由最新一代 LLM 的“上下文窗口”增加导致。这就是他们可以在所谓的短期记忆中保存的数据量，曾经只有几句话，但现在有数千个单词，甚至整本书。

Anthropic的研究人员发现，如果提示中有很多任务的例子，那么这些具有大上下文窗口的模型往往在许多任务上表现得更好。因此，如果提示中有很多琐事问题（或启动文档，例如模型在上下文中的一大堆琐事），答案实际上会随着时间的推移而变得更好。因此，如果是第一个问题，它可能会出错，如果是第一百个问题，它可能会出错。

但是，在这种所谓的“情境学习”的意想不到的扩展中，这些模型在回答不适当的问题方面也变得“更好”。因此，如果你要求它立即制造炸弹，它会拒绝。但是，如果你要求它回答其他 99 个危害较小的问题，然后要求它制造炸弹…它更有可能遵守。

在这里插入图片描述