LLM Prompt Technique 论文精读-1

Zeeland

已于 2023-07-04 20:59:36 修改

阅读量1.6k

点赞数 1

分类专栏： chatgpt专栏 Promptulate专栏文章标签： prompt 人工智能 GPT LLM ChatGPT

于 2023-07-04 20:58:53 首次发布

本文链接：https://blog.csdn.net/linZinan_/article/details/131543011

版权

Promptulate专栏同时被 2 个专栏收录

12 篇文章

订阅专栏

chatgpt专栏

9 篇文章

订阅专栏

下面为笔者最近看的一些prompt technique领域的新兴论文以及对应的总结，分享给大家一起学习。

持续更新中…

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 思维链提示引发大型语言模型的推理能力

链接：https://arxiv.org/pdf/2201.11903.pdf

时间：2022

摘要：我们探讨了如何生成一系列中间推理步骤，即思维链，如何显著提高大型语言模型执行复杂推理的能力。特别地，我们展示了这种推理能力如何在足够大的语言模型中自然地出现，通过一种简单的方法称为思维链提示，在提示中提供几个思维链演示作为示例。对三个大型语言模型的实验表明，思维链提示提高了算术、常识和符号推理任务的性能。实证收益可能非常显著。例如，仅使用八个思维链示例提示一个具有540B参数的语言模型，在数学单词问题的GSM8K基准测试上实现了最先进的准确性，甚至超过了带有验证器的微调GPT-3。

关键词：Chain-of-Thought Prompting, reasoning, large language models, arithmetic, commonsense, symbolic reasoning, state of the art accuracy

关键见解：

通过生成一系列中间推理步骤的思维链，可以显著提高大型语言模型进行复杂推理的能力。
在足够大的语言模型中，这种推理能力可以自然地出现，通过一种简单的方法——思维链提示，即在提示中提供一些思维链演示。
在三个大型语言模型上的实验表明，思维链提示可以提高在一系列算术、常识和符号推理任务上的性能，实验效果显著。

经验教训：

通过提供一些思维链演示，可以有效地提高大型语言模型的推理能力。
思维链提示是一种简单而有效的方法，可以在不需要额外训练的情况下提高语言模型的性能。
思维链提示可以在数学问题等任务中实现超越当前最先进模型的性能。

相关建议：

进一步探索链式思维在大型语言模型中的应用，尝试在更多的任务中应用该方法，以验证其普适性和有效性。
研究如何自动化生成链式思维的过程，以减少人工标注的成本，并提高模型的可扩展性。
探索如何将链式思维与其他技术相结合，例如迁移学习、元学习等，以进一步提高模型的性能和泛化能力。
研究如何解决链式思维中可能出现的错误传递问题，以提高模型的鲁棒性和可靠性。
探索如何将链式思维应用于其他领域，例如计算机视觉、自然语言处理等，以扩展该方法的应用范围。

Large Language Models are Zero-Shot Reasoners 大型语言模型是Zero-Shot推理器

paper: https://arxiv.org/pdf/2205.11916.pdf
relevant: CoT系列-Zero-shot-CoT [year 2023, Google]

摘要：预训练的大型语言模型（LLMs）广泛应用于自然语言处理（NLP）的许多子领域，并通常被认为是具有任务特定示例的出色的少量样本学习者。值得注意的是，最近一种通过逐步回答示例来引出复杂的多步推理的技术——思维链（CoT）提示，在算术和符号推理方面取得了最先进的表现，这些是不遵循LLMs标准缩放定律的困难系统2任务。虽然这些成功通常归因于LLMs的少量样本学习能力，但我们表明，通过在每个答案前简单地添加“让我们逐步思考”，LLMs是不错的零-shot推理器。实验结果表明，我们的零-shot-CoT，在使用相同的单个提示模板的情况下，显着优于各种基准推理任务上的零-shot LLM表现，包括算术（MultiArith，GSM8K，AQUA-RAT，SVAMP），符号推理（Last Letter，Coin Flip）和其他逻辑推理任务（Date Understanding，Tracking Shuffled Objects），没有任何手工制作的少量样本示例，例如使用大型InstructGPT模型（text-davinci-002）将MultiArith的准确性从17.7％提高到78.7％，将GSM8K从10.4％提高到40.7％，以及使用另一个现成的大型模型，540B参数PaLM，类似幅度的改进。这个单个提示的多样性涵盖了非常不同的推理任务，暗示了LLMs未被开发和研究的基本零-shot能力，表明高水平的多任务广泛认知能力可以通过简单的提示提取。我们希望我们的工作不仅作为具有挑战性的推理基准测试的最小最强零-shot基线，而且强调在制定微调数据集或少量样本示例之前，仔细探索和分析隐藏在LLMs中的巨大零-shot知识的重要性。

关键词：Large Language Models, zero-shot reasoners, chain of thought prompting, few-shot learning, arithmetics, symbolic reasoning, logical reasoning, multi-task broad cognitive capabilities, prompting, finetuning datasets.

关键见解：

Pretrained large language models (LLMs) are not only excellent few-shot learners, but also decent zero-shot reasoners.
Chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, can significantly improve the zero-shot reasoning performance of LLMs.
The versatility of a single prompt across diverse reasoning tasks suggests untapped and understudied fundamental zero-shot capabilities of LLMs.
提出两阶段prompt，第一阶段通过Let’s think step by step形成分析内容（类似于提供few shot），第二阶段根据第一阶段的分析内容，最终生成结果。
Benchmark

经验教训：

It is important to carefully explore and analyze the zero-shot knowledge hidden inside LLMs before crafting finetuning datasets or few-shot exemplars.
CoT prompting can be a useful technique for improving the zero-shot reasoning performance of LLMs.
The results of this study suggest that LLMs may have high-level, multi-task broad cognitive capabilities that can be extracted by simple prompting.

相关建议：

进一步探究大型语言模型的零样本推理能力，以及如何利用这种能力来解决更加复杂的任务。
研究如何设计更加有效的提示方式，以提高大型语言模型的零样本推理能力。
探索大型语言模型的多任务学习能力，以及如何利用这种能力来提高模型的性能和泛化能力。
研究如何将大型语言模型应用于更加广泛的领域，例如自然语言生成、对话系统等。
研究如何解决大型语言模型的可解释性问题，以提高模型的可靠性和可用性。

ReAct: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 在语言模型中协同推理和行动

链接：https://arxiv.org/abs/2210.03629

摘要：尽管大型语言模型（LLMs）在语言理解和交互式决策方面展示了令人印象深刻的能力，但它们的推理能力（例如思维链提示）和行动能力（例如行动计划生成）主要被研究为单独的主题。在本文中，我们探讨了使用LLMs以交错方式生成推理追踪和任务特定行动的方法，从而允许更大的协同作用：推理追踪帮助模型诱导、跟踪和更新行动计划以及处理异常情况，而行动则允许其与外部来源（例如知识库或环境）进行接口，以收集额外的信息。我们将我们的方法命名为ReAct，并将其应用于各种语言和决策任务，并展示其相对于最先进的基线方法的有效性，以及相对于没有推理或行动组件的方法的改进的人类可解释性和可信度。具体而言，在问答（HotpotQA）和事实验证（Fever）方面，ReAct通过与简单的维基百科API交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，并生成了更可解释的人类任务解决轨迹。在两个交互式决策基准测试（ALFWorld和WebShop）中，ReAct分别比模仿和强化学习方法的绝对成功率高出34％和10％，同时仅提示一个或两个上下文示例。项目网站和代码：https://react-lm.github.io

关键词：large language models, reasoning, acting, task-specific actions, human interpretability, trustworthiness, interactive decision making

关键见解：

LLMs have primarily been studied for reasoning and acting as separate topics, but this paper explores the use of LLMs to generate both reasoning traces and task-specific actions in an interleaved manner, allowing for greater synergy between the two.
ReAct, the approach proposed in this paper, demonstrates effectiveness over state-of-the-art baselines on a diverse set of language and decision making tasks.
ReAct generates human-like task-solving trajectories that are more interpretable than baselines without reasoning traces.
ReAct outperforms imitation and reinforcement learning methods on two interactive decision making benchmarks by a significant margin.

经验教训：

Combining reasoning and acting in LLMs can lead to improved performance and interpretability in language and decision making tasks.
Interleaving reasoning and acting can help LLMs handle exceptions and interface with external sources of information.
ReAct provides a promising approach for future research in the field of language and decision making.

相关建议：

进一步探索如何在语言模型中实现更加复杂的推理和行动，以提高模型的实用性和适用性。
研究如何将ReAct方法应用于更广泛的任务领域，例如自然语言生成和对话系统等。
探索如何进一步提高ReAct方法的可解释性和可信度，以便更好地满足实际应用的需求。
研究如何将ReAct方法与其他技术结合使用，例如强化学习和迁移学习等，以进一步提高模型的性能和效率。
探索如何将ReAct方法应用于更加复杂和现实的场景中，例如多模态任务和多智能体系统等。

Inner monologue: Embodied reasoning through planning with language models 内部独白：通过语言模型规划实现具身化推理

链接：https://arxiv.org/abs/2207.05608

摘要：最近的研究表明，大型语言模型（LLMs）的推理能力可以应用于自然语言处理之外的领域，例如机器人的规划和交互。这些具身化问题要求代理人理解世界的许多语义方面：可用的技能库，这些技能如何影响世界，以及对世界的更改如何映射回语言。在具身化环境中进行规划的LLMs不仅需要考虑要做什么技能，还需要考虑如何以及何时进行这些技能——这些答案随着代理人自己的选择而随时间变化。在这项工作中，我们调查了LLMs在这种具身化环境中使用自然语言提供的反馈来源能够推理的程度，而无需进行任何额外的训练。我们提出，通过利用环境反馈，LLMs能够形成内部独白，使它们能够更丰富地处理和规划机器人控制场景。我们调查了各种反馈来源，例如成功检测、场景描述和人类交互。我们发现，闭环语言反馈显著提高了三个领域的高级指令完成情况，包括模拟和真实的桌面重新排列任务以及在真实世界的厨房环境中进行的长期移动操作任务。

关键词：Large Language Models, embodied reasoning, planning, natural language feedback, robotic control, instruction completion, semantic understanding.

关键见解：

大型语言模型（LLMs）的推理能力可以应用于自然语言处理以外的领域，如机器人的规划和交互。
在机器人控制场景中，LLMs需要考虑不仅要做什么技能，还要考虑如何和何时去做这些技能。
利用环境反馈，LLMs能够形成内部独白，从而更丰富地处理和规划机器人控制场景。

经验教训：

通过利用环境反馈，可以提高LLMs在机器人控制场景中的高级指令完成率。
闭环语言反馈在三个领域（包括模拟和真实的桌面重排任务以及长期移动操作任务）中显著提高了高级指令完成率。
LLMs在机器人控制场景中的应用需要考虑到技能的选择、技能对环境的影响以及环境变化对语言的影响。

相关建议：

进一步探究LLMs在具体领域中的应用，如何更好地将其应用于机器人控制等领域。
研究如何提高LLMs在具体领域中的表现，如何更好地利用环境反馈来提高其性能。
探索如何将LLMs与其他技术结合使用，如强化学习等，以提高其在具体领域中的表现。
研究如何将LLMs应用于更复杂的环境中，如多智能体系统等。
探索如何将LLMs应用于更广泛的领域，如自动驾驶等。

Generative Agents: Interactive Simulacra of Human Behavior 生成代理：人类行为的交互模拟

链接：https://arxiv.org/abs/2304.03442

摘要：可信的人类行为代理可以为各种交互应用提供支持，包括沉浸式环境、人际交流排练空间和原型工具。本文介绍了生成代理——计算机软件代理，模拟可信的人类行为。生成代理会起床、做早餐，然后去上班；艺术家会绘画，作家会写作；他们会形成观点，注意到彼此，并开始对话；他们会回忆和反思过去的日子，同时计划未来的日子。为了实现生成代理，我们描述了一种架构，扩展了一个大型语言模型，以使用自然语言存储代理的完整经历记录，随着时间的推移，将这些记忆综合成更高层次的反思，并动态检索它们以规划行为。我们通过在受《模拟人生》启发的交互式沙盒环境中实例化生成代理，让最终用户可以使用自然语言与二十五个代理居民互动。在评估中，这些生成代理展现出可信的个体和群体行为：例如，仅仅从一个用户指定的一个代理想要举办情人节派对的概念开始，代理们在接下来的两天里自主地传播派对的邀请，结识新朋友，相互约会参加派对，并协调好在正确的时间一起出现在派对上。我们通过消融实验证明了我们代理架构的组成部分——观察、规划和反思——对代理行为的可信度都起到了至关重要的作用。通过将大型语言模型与计算机交互代理相结合，本研究引入了用于实现可信人类行为模拟的架构和交互模式。

关键词：generative agents, believable human behavior, interactive applications, immersive environments, rehearsal spaces, prototyping tools, large language model

关键见解：

介绍了一种名为"generative agents"的计算机软件代理，可以模拟可信的人类行为。
描述了一个扩展大型语言模型的架构，用于存储代理的经验，并动态地检索和规划行为。
在一个受《模拟人生》启发的交互式环境中实例化了generative agents，用户可以使用自然语言与这些代理进行互动。
通过实验证明，代理的行为具有可信度，能够产生个体行为和 emergent social behaviors。

经验教训：

观察、规划和反思是构建可信代理行为的关键组成部分。
将大型语言模型与计算机交互代理相结合，可以实现对人类行为的可信模拟。
这项工作引入了一种架构和交互模式，用于实现可信的人类行为模拟。

相关建议：

进一步研究和改进生成代理的记忆机制，以提高其对人类行为的模拟能力。可以探索如何更好地存储和检索代理的经验，以及如何将这些经验综合成更高层次的反思。
探索如何使生成代理更加自适应和灵活，以适应不同环境和情境的变化。可以研究如何让代理根据外部输入和用户交互来调整其行为，并且能够适应新的任务和目标。
深入研究生成代理的规划和决策机制，以提高其在社交互动和协调方面的表现。可以探索如何使代理能够更好地理解和解释其他代理的行为，以及如何进行有效的社交决策和协作。
进一步探索生成代理在不同应用领域的潜在应用。可以研究如何将生成代理应用于虚拟现实、人机交互、教育培训等领域，以提供更丰富和真实的用户体验。
研究生成代理的可解释性和可控性，以提高用户对代理行为的理解和控制。可以探索如何设计界面和交互方式，使用户能够直观地了解代理的意图和决策过程，并且能够对代理的行为进行调整和干预。

ChemCrow: Augmenting large-language models with chemistry tools 用化学工具增强大型语言模型

链接： https://arxiv.org/abs/2304.05376

摘要：在过去几十年中，出现了许多优秀的计算化学工具。然而，由于大多数工具学习难度较高且相互孤立，它们的全部潜力尚未得到充分发挥。最近，大型语言模型(LLMs)在各个领域的任务中表现出了强大的性能，但在处理化学相关问题时却遇到了困难。此外，这些模型缺乏对外部知识源的访问，限制了它们在科学应用中的实用性。在本研究中，我们介绍了ChemCrow，一种LLM化学代理，旨在完成有机合成、药物发现和材料设计等任务。通过整合17个专家设计的工具，ChemCrow增强了LLM在化学领域的性能，并产生了新的能力。我们的代理自主地规划了一种驱虫剂、三种有机催化剂以及其他相关分子的合成。我们的评估包括LLM和专家评估，证明了ChemCrow在自动化各种化学任务方面的有效性。令人惊讶的是，我们发现作为评估器的GPT-4无法区分明显错误的GPT-4完成和ChemCrow的性能。像ChemCrow这样的工具存在被滥用的重大风险，我们讨论了它们的潜在危害。在负责任的使用下，我们的工作不仅有助于专业化学家并降低非专业人士的门槛，还通过弥合实验和计算化学之间的差距促进科学进步。部分代码可在https://github.com/ur-whitelab/chemcrow-public上公开获取。

关键词：ChemCrow, large-language models, computational chemistry tools, organic synthesis, drug discovery, materials design, automating chemical tasks

关键见解：

引入ChemCrow，一个基于大型语言模型（LLM）的化学代理，通过整合17个专家设计的工具，提高了LLM在化学领域的性能。
ChemCrow能够自主规划昆虫驱虫剂、有机催化剂和其他相关分子的合成，展示了在化学任务自动化方面的有效性。
GPT-4作为评估器无法区分明显错误的GPT-4完成和ChemCrow的性能，存在误用的风险。
讨论了类似ChemCrow工具的潜在危害。

经验教训：

化学工具的整合和应用可以提高大型语言模型在化学领域的表现。
在使用类似ChemCrow的工具时，需要谨慎避免误用和潜在危害。
通过桥接实验和计算化学之间的差距，可以促进科学进步。

相关建议：

进一步改进和优化ChemCrow的性能，以提高其在化学领域的应用能力。
扩展ChemCrow的功能，使其能够处理更多种类的化学任务，如催化剂设计、反应预测等。
加强ChemCrow与外部知识源的连接，以提供更全面和准确的化学信息，进一步提升其在科学应用中的实用性。
研究和解决ChemCrow可能存在的潜在风险和危害，确保其在使用过程中的安全性和可靠性。
推广和普及ChemCrow的使用，以帮助更多的专家化学家和非专业人士参与到化学研究中，促进实验和计算化学之间的融合。

API-Bank: A Benchmark for Tool-Augmented LLMs 一种用于工具增强的LLMs的基准测试

链接：https://arxiv.org/abs/2304.08244

摘要：最近的研究表明，大型语言模型（LLMs）可以利用外部工具来提高其上下文处理能力，摆脱纯语言建模范式，为人工通用智能铺平道路。尽管如此，目前缺乏系统性评估来证明LLMs使用工具回应人类指令的有效性。本文介绍了API-Bank，这是专为工具增强的LLMs量身定制的第一个基准测试。API-Bank包括53个常用的API工具，一个完整的工具增强的LLM工作流程，以及264个带有注释的对话，总共包含568个API调用。这些资源旨在全面评估LLMs在规划逐步API调用、检索相关API和正确执行API调用以满足人类需求方面的能力。实验结果表明，相对于GPT3，GPT-3.5在使用工具方面具有更强的能力，而GPT-4在规划性能方面更强。然而，与人类表现相比，仍有相当大的改进空间。此外，详细的错误分析和案例研究证明了工具增强的LLMs在日常使用中的可行性，以及未来研究需要解决的主要挑战。

关键词：Large Language Models, contextual processing abilities, Artificial General Intelligence, benchmark, Tool-Augmented LLMs, API tools, annotated dialogues

关键见解：

最近的研究表明，大型语言模型（LLMs）可以利用外部工具来提高其上下文处理能力，摆脱纯语言建模范式，为人工通用智能铺平了道路。
过去缺乏系统评估来证明LLMs使用工具回应人类指令的有效性。
本文介绍了API-Bank，这是第一个专为工具增强型LLMs量身定制的基准测试。API-Bank包括53个常用的API工具、一个完整的工具增强型LLM工作流程以及264个带有注释的对话，总共包含568个API调用。
这些资源旨在全面评估LLMs在规划逐步API调用、检索相关API和正确执行API调用以满足人类需求方面的能力。
实验结果显示，相对于GPT3，GPT-3.5在使用工具方面表现出更强的能力，而GPT-4在规划性能方面更强。然而，与人类表现相比，仍有相当大的改进空间。
此外，详细的错误分析和案例研究证明了工具增强型LLMs在日常使用中的可行性，以及未来研究需要解决的主要挑战。

经验教训：

外部工具对于提高LLMs的上下文处理能力具有重要作用，但仍需要进一步改进。
在评估LLMs能力时，需要考虑规划能力、API检索能力和API执行能力等方面。
GPT-3.5相对于GPT3在使用工具方面有所改进，而GPT-4在规划性能方面更强，这为未来的研究提供了方向。
工具增强型LLMs在日常使用中具有潜在的可行性，但仍需要解决一些挑战。

相关建议：

进一步扩充API-Bank的资源：为了更全面地评估LLMs使用工具响应人类指令的能力，可以考虑增加更多常用的API工具和对话数据，以覆盖更广泛的应用场景和API调用情况。
提高LLMs的规划性能：尽管GPT-4在规划性能上相对于GPT-3有所提升，但仍有进一步改进的空间。可以探索更有效的规划算法和策略，以提高LLMs在API调用过程中的规划能力，使其更接近人类表现。
探索更多应用领域：除了当前的API调用任务，可以考虑将Tool-Augmented LLMs应用于其他领域，如自动化测试、代码生成等。这将有助于进一步验证和拓展LLMs使用工具的潜力，并为未来研究提供更多的研究方向。
解决Tool-Augmented LLMs的挑战：通过详细的错误分析和案例研究，可以深入了解Tool-Augmented LLMs在日常使用中面临的主要挑战。未来的研究可以针对这些挑战，如错误纠正、上下文理解等方面进行深入研究，以进一步提升Tool-Augmented LLMs的性能和可用性。
推动人工通用智能的发展：LLMs使用外部工具提升上下文处理能力的研究为人工通用智能的发展开辟了新的道路。未来的研究可以进一步探索LLMs与其他技术的结合，如知识图谱、推理引擎等，以实现更全面、智能的人工通用智能系统。

Toolformer: Language Models Can Teach Themselves to Use Tools 语言模型可以自学使用工具

链接：https://arxiv.org/abs/2302.04761

摘要：语言模型（LMs）展示了在规模上仅仅通过少量示例或文本指令就能解决新任务的非凡能力。然而，令人矛盾的是，它们在基本功能上却表现出困难，比如算术或事实查找，而更简单、更小的模型却擅长这些。在本文中，我们展示了LMs可以通过简单的API自学使用外部工具，并实现两者的最佳结合。我们引入了Toolformer，一个经过训练的模型，用于决定调用哪些API、何时调用它们、传递什么参数以及如何最好地将结果融入未来的标记预测中。这是以自监督的方式完成的，仅需要每个API的少量演示。我们整合了一系列工具，包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer在各种下游任务中实现了显著改进的零样本性能，通常与更大的模型竞争，而不牺牲其核心语言建模能力。

关键词：Language models, tools, APIs, self-supervised learning, zero-shot performance, downstream tasks, language modeling abilities

关键见解：

语言模型（LMs）在解决新任务方面表现出了非凡的能力，仅凭几个示例或文本指令就能完成任务，尤其在大规模情况下。
然而，LMs在基本功能上却存在困难，如算术或事实查找，而更简单、更小的模型却擅长这些功能。
本文展示了LMs可以通过简单的API自学习使用外部工具，并实现两者的最佳结合。
作者引入了Toolformer，一个训练模型，用于决定调用哪些API、何时调用、传递什么参数以及如何将结果最好地融入未来的标记预测。
这种自监督的方式只需要每个API的少量示范即可完成。
Toolformer包含了多种工具，包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。
Toolformer在各种下游任务中实现了显著改进的零样本性能，通常与更大的模型竞争，而不会牺牲其核心语言建模能力。

经验教训：

通过使用外部工具，LMs可以弥补其在基本功能上的不足，提高性能。
自学习使用外部工具可以通过简单的API实现，而无需复杂的监督训练。
少量示范对于模型学习使用每个API是足够的。
Toolformer的引入使得LMs在下游任务中取得了显著的改进，与更大的模型相媲美。
Toolformer的成功表明，通过结合不同的工具，LMs可以在各种任务中发挥出色的性能。

相关建议：

进一步研究和改进Toolformer模型，以提高其在各种下游任务中的性能。可以尝试使用更多的API和工具，以及更复杂的任务场景，以评估模型的适应能力和泛化能力。
探索如何在训练Toolformer模型时减少对API演示的依赖。目前，每个API都需要一些演示来指导模型学习如何使用。可以考虑使用更少的演示或其他自监督学习方法，以提高模型的自主学习能力。
研究如何进一步提升Toolformer模型在基本功能上的表现，例如算术运算或事实查找。虽然Toolformer在使用外部工具方面表现出色，但在一些基本功能上仍然存在挑战。可以尝试设计更有效的方法来帮助模型学习和理解这些基本功能。
探索如何将Toolformer模型应用于实际场景中，例如自动化办公任务或智能助手。可以将Toolformer与其他自然语言处理模型或任务特定的模型结合使用，以实现更复杂的任务和功能。
研究如何提高Toolformer模型的可解释性和可控性。由于Toolformer模型是自主学习的，其决策过程可能难以解释和控制。可以探索如何设计解释性方法或引入约束来增加模型的可解释性和可控性。