[论文阅读]REPROMPT: Planning by Automatic Prompt Engineering for Large Language Models Agents-CSDN博客

本文链接：https://blog.csdn.net/li_li_rui/article/details/140528765

总体概要

本文提出了一种名为REPROMPT的新型自动提示工程方法，旨在通过“梯度下降”优化大型语言模型（LLM）代理的逐步指令，以提高其在特定领域推理任务中的性能。REPROMPT利用LLM代理与环境交互的历史记录来优化提示，通过总结对话历史并分析如何改进提示，从而在不过度拟合特定案例的情况下优化提示。实验在PDDL生成和旅行规划任务中展示了REPROMPT方法能够普遍提高不同推理任务的性能，使用更新后的提示作为初始提示，无需对LLM模型进行微调。文章的核心思想是通过自动优化提示来提升LLM代理在复杂推理任务中的表现，从而推动LLM在更广泛应用领域的实用性。

核心要点

自动提示工程方法REPROMPT的提出：
- REPROMPT是一种新颖的自动提示工程方法，通过“梯度下降”优化大型语言模型（LLM）代理的逐步指令，利用与LLM代理的交互历史来指导提示更新。该方法在特定推理任务中，如PDDL生成和旅行规划，显示出提高首次尝试成功率的潜力。
REPROMPT的工作流程：
- REPROMPT的工作流程类似于机器学习训练循环，但专注于训练输入提示而非模型参数。它包括收集交互历史、批量总结关键焦点点、使用LLM更新实际提示，并通过迭代直到提示收敛。
实验设置和结果：
- 在PDDL生成任务中，REPROMPT使用来自先前工作的注释作为训练数据，更新提示一次后，在多个相关领域提高了成功率，同时减少了所需的人工注释。
- 在旅行规划环境中，经过5次迭代的REPROMPT优化的提示在最终通过率上超过了原始的REFLEXION结果，特别是在宏观常识通过率方面有所提升。
REPROMPT的局限性和讨论：
- REPROMPT的优化提示可能会受到训练数据的限制，影响其泛化能力。此外，该方法依赖于LLM代理可用的全面工具，并且可能会受到反馈生成器提供的无用或错误结果的影响。
结论和未来工作：
- 本文提出的REPROMPT方法在多个LLM代理基准测试中改进了结果，无需在这些任务上对LLM模型进行微调。未来的工作可以探索如何进一步提高REPROMPT的泛化能力和解决其当前的局限性。

段落概要

Introduction

文章的Introduction部分主要介绍了大型语言模型（LLMs）在多个领域的成功应用，特别是在需要复杂推理的任务中，如代码生成、机器人控制等。文章指出，尽管LLMs在处理自然语言任务方面表现出色，但它们在复杂推理任务中的表现受限于提示（prompts）的质量。为了提高LLMs在特定任务上的性能，自动提示工程（APE）成为研究热点。然而，现有的APE方法在处理复杂推理任务时存在局限性。因此，本文提出了一个名为REPROMPT的新方法，通过优化LLM代理的逐步指令提示，基于与LLM代理的交互历史来提高其在特定领域中的规划能力。实验表明，使用更新后的提示作为初始提示，REPROMPT方法能显著提高不同推理任务的性能，而无需对LLM模型进行微调。

Related Works

文章的“相关工作”部分概述了在提示优化和大型语言模型（LLM）用于推理任务方面的研究进展。在提示优化领域，研究者们提出了多种方法，包括使用可微调的软提示、训练辅助模型作为优化器，以及直接训练提示生成器。这些方法通常需要访问语言模型的权重，而在当前使用API访问LLM（如GPT-4和Claude-3）的时代，这些方法并不普遍适用。另一方面，有些工作采用机器学习模型来提供关于何种提示更优的近似指导，使用强化学习或基于LLM反馈的离散操作。在LLM用于推理任务方面，研究集中在如何正确使用提示来引导LLM生成有助于最终解决方案的有用辅助输出。常用的提示方法包括链式思维（CoT）、思维树（ToT）和思维图（GoT），以及利用LLM交互能力的REACT和REFLEXION等方法。文章指出，这些方法在迭代反馈和最终答案确定之前，通过与用户的交互来优化提示。

Methods

文章的Methods部分介绍了一种名为REPROMPT的方法，用于优化大型语言模型（LLM）在推理任务中的表现。该方法通过迭代过程，利用模型与用户或反馈机制的交互历史来优化提示（prompt）。具体步骤包括：首先让LLM使用当前提示生成响应，收集交互历史；然后使用LLM对这些历史进行总结，提取关键焦点点；接着利用另一个LLM根据总结出的问题和规则更新提示；最后输出更新后的提示，并可进行多轮迭代直至提示收敛。REPROMPT特别关注于提示中的步骤指导部分，通过增加更具体的分析步骤或提示，帮助LLM更有效地解决推理问题。此外，文章还提到了在初始训练迭代中，如果没有详细的步骤指导，会使用LLM添加一个基本的步骤指导序列。

Experiments

文章的Experiments部分通过在两个不同环境中测试REPROMPT算法，展示了其在优化大型语言模型（LLM）生成任务中的有效性。在PDDL生成任务中，REPROMPT通过仅一轮迭代训练，显著减少了生成错误的数量，并提高了在不同领域中的泛化能力。在Travel Planner任务中，经过5轮迭代的REPROMPT优化提示，提高了最终通过率，特别是在宏观常识通过率上取得了显著提升，解决了旅行规划中的关键瓶颈。然而，REPROMPT并未能有效解决代理产生幻觉答案的问题，这表明在处理简单幻觉错误方面仍有改进空间。总体而言，REPROMPT在提高LLM任务执行准确性和效率方面显示出潜力，但仍需进一步研究以解决特定类型的错误。

Discussion

文章的Discussion部分主要探讨了自动优化大型语言模型（LLM）提示的方法REPROMPT在实验中遇到的问题和局限性。核心要点包括：1) 自动优化过程无法保证生成更优提示；2) 列举了常见错误，如不完整提示和意外的错误更改，并提出了相应的解决策略；3) 讨论了REPROMPT方法的局限性，包括对训练数据的依赖性、对可用工具的依赖、反馈生成器可能产生无效或误导性结果，以及在需要不同处理流程的通用领域中的不适用性；4) 强调了REPROMPT在特定任务（如高中几何问题解决）中的效率，并展望了未来工作可能的改进方向。总的来说，尽管REPROMPT在优化LLM提示方面显示出潜力，但仍需解决多方面的挑战以提高其效能和适用性。