论文 | TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE MODELS

        这篇论文介绍了STEP-BACK PROMPTING,一种用于大型语言模型 (LLM) 的简单提示技术,它能够让 LLM 通过抽象推理来从包含特定细节的实例中得出高级概念和基本原则。利用这些概念和原则来指导推理,LLM 可以显著提高其沿着正确推理路径解决问题的能力。

主要内容和贡献

  • 抽象和推理:论文的核心思想是利用抽象和推理两个步骤来提升 LLM 的推理能力。抽象是指从具体实例中提炼出高级概念和原则,而推理则是在这些概念和原则的基础上进行逻辑推理。
  • 逐步提示:论文提出了逐步提示 (Step-Back Prompting) 技术,通过引导 LLM 提出更高级的抽象问题来获取相关信息,从而避免在推理过程中犯错。
  • 实验验证:论文在 PaLM-2L、GPT-4 和 Llama2-70B 模型上进行了实验,结果表明 STEP-BACK PROMPTING 在 STEM、知识问答和多跳推理等需要复杂推理的任务上取得了显著的性能提升,例如在 MMLU(物理和化学)上分别提高了 7% 和 11%,在 TimeQA 上提高了 27%,在 MuSiQue 上提高了 7%。
  • 与其他方法的比较:论文将 STEP-BACK PROMPTING 与思维链 (CoT) 提示和“深呼吸”提示 (TDB) 进行了比较,结果表明 STEP-BACK PROMPTING 在大多数任务上都取得了更好的性能。

论文的主要发现

  • 抽象是 LLM 的一个容易掌握的技能: 通过少量示例,LLM 可以学习如何进行抽象,从而提取出相关概念和原则。
  • 推理仍然是 LLM 的一个挑战: 即使在抽象的帮助下,LLM 仍然可能在推理过程中犯错。
  • 抽象可以减少幻觉: LLM 在进行抽象后,更容易得出正确的答案,从而减少了幻觉的发生。

论文的意义

  • 为 LLM 的推理能力提升提供了新的思路: 通过抽象和推理,LLM 可以更好地理解和解决复杂任务。
  • 为 LLM 的设计和应用提供了新的方向: 未来可以探索更多基于抽象和推理的 LLM 方法,以提升 LLM 的性能和实用性。

STEP-BACK PROMPTING 的核心思想是将复杂问题分解为两个步骤

  1. 抽象 (Abstraction): 将问题中的具体细节抽象成更高层次的概念和原则。例如,对于“Estella Leopold 在 1954 年 8 月到 11 月间去了哪所学校?”这个问题,我们可以将其抽象为“Estella Leopold 的教育经历是怎样的?”
  2. 推理 (Reasoning): 在抽象得到的概念和原则的基础上进行逻辑推理,得出问题的答案。

具体步骤

  1. 设计抽象问题: 根据任务的具体情况,设计一个能够引导 LLM 提取相关概念和原则的抽象问题。例如,对于物理问题,可以问 LLM 涉及哪些物理原理;对于知识问答问题,可以问 LLM 与问题相关的背景信息。
  2. 提供示例: 提供一些示例,帮助 LLM 学习如何进行抽象和推理。例如,可以提供一些类似问题的答案,以及抽象问题和推理过程的说明。
  3. 使用检索增强 (RAG) 技术: 对于需要事实知识的任务,可以使用 RAG 技术从外部知识库中检索相关信息,并将其作为 LLM 推理的辅助信息。

优势

  • 提升推理能力: 通过抽象,LLM 可以避免直接处理复杂细节,从而降低推理错误的可能性。
  • 减少幻觉: LLM 在进行抽象后,更容易得出正确的答案,从而减少了幻觉的发生。
  • 提升样本效率: 通过少量示例,LLM 可以学习如何进行抽象和推理,从而提高样本效率。

局限性

  • 抽象的难度: 抽象问题的设计需要一定的技巧,对于一些复杂任务,抽象问题可能难以设计。
  • 推理的瓶颈: 即使在抽象的帮助下,LLM 仍然可能在推理过程中犯错,这仍然是 LLM 需要改进的地方。

评估方法:

这篇论文采用了多种评估方法来验证 STEP-BACK PROMPTING 的有效性,包括:

1. 示例学习(Few-shot Prompting):

  • 论文使用 PaLM-2L 模型作为评估模型,并使用示例学习技术进行评估。
  • 示例学习技术通过提供少量示例来引导模型理解任务,并评估模型生成的答案与目标答案之间的相似度。
  • 论文使用了正例和反例作为示例,并使用人工标注的方式评估模型生成的答案是否与目标答案等价。

2. 基线方法:

论文将 STEP-BACK PROMPTING 与多种基线方法进行了比较,包括:

  1. PaLM-2L (zero-shot): 直接使用模型回答问题。
  2. PaLM-2L (one-shot): 在提示中包含一个示例问题-答案对,并让模型根据示例回答问题。
  3. PaLM-2L + CoT (思维链): 在提示中添加“让我们一步一步地思考”的提示,并让模型生成一系列推理步骤。
  4. PaLM-2L + CoT (one-shot思维链): 在提示中包含一个示例问题-答案对,并让模型根据示例生成推理步骤。
  5. PaLM-2L + TDB (深呼吸): 在提示中添加“深呼吸,一步一步地解决这个问题”的提示。
  6. PaLM-2L + RAG (检索增强生成): 使用 RAG 技术从外部知识库中检索相关信息,并将其作为模型推理的辅助信息。

3. 消融实验:

  • 论文进行了消融实验,以分析 STEP-BACK PROMPTING 的各个组成部分对性能的影响。
  • 例如,论文研究了使用不同数量的示例对性能的影响,以及不同类型错误的影响。

4. 错误分析:

  • 论文对 STEP-BACK PROMPTING 产生的错误进行了分析,并将其分类为不同的类型,例如原理错误、事实错误、数学错误、上下文丢失和推理错误。
  • 通过错误分析,论文可以了解 STEP-BACK PROMPTING 的优势和局限性,并为未来的改进提供方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值