论文地址:https://arxiv.org/abs/2311.11829
原文地址:https://gonzoml.substack.com/p/system-2-attention-is-something-you
2023年12月5日
根据论文,System 2 Attention (S2A) 的实现方法主要分为两个步骤:
1. 给定一个上下文(context),S2A 首先会重新生成一个新的上下文(x'),这个新的上下文将去除那些可能会对最终输出产生负面影响的不相关信息。这可以通过对预训练的大型语言模型(如LLaMA-2-70B-chat)进行零样本提示来实现,模型会根据提示生成一个新的上下文。
2. 使用这个重新生成的上下文(x'),然后再让大型语言模型基于这个上下文生成最终的响应。这个过程中,模型只会关注那些被认为与任务相关的信息。
S2A的核心思想是利用大型语言模型的自然语言处理和理解能力,通过生成新的上下文来引导模型关注相关信息,从而提高模型的性能。这个过程主要依赖于模型的理解和推理能力。
大型语言模型(LLMs)的提示往往包含无关的信息,会使模型分散注意力。这可能基于一些工作启发,比如如果一个事实在上下文中多次重复出现,那么它下一次重复出现的可能性更高。这在平均情况下可能有助于预测下一个标记。然而,这也会导致错误,因为先进的统计机器往往会在不应该的情况下抓住这种相关性。从这个意义上说,混淆模型的一个好方法是在输入提示中添加大量无关的、特别是重复的事实。即使是最先进的模型也容易受到这种影响。