Coggle数据科学 | 大模型技术内参：39 种提示工程在 29 种 NLP 任务精度对比

本文链接：https://blog.csdn.net/csdn_xmj/article/details/140589978

本文来源公众号“Coggle数据科学”，仅用于学术分享，侵权删，干货满满。

大语言模型（LLMs）在许多不同的自然语言处理（NLP）任务中表现出色。提示工程需要编写称为提示的自然语言指令，以结构化方式从LLMs中提取知识。与以往的最新技术（SoTA）模型不同，提示工程不需要根据给定的NLP任务进行广泛的参数重新训练或微调，因此仅依赖于LLMs的嵌入知识。

《在不同自然语言处理任务中的提示工程方法调查》

https://arxiv.org/pdf/2407.12994

在本文中，我们阅读并总结了44篇研究论文，这些论文讨论了39种不同的提示方法和29种不同的NLP任务。我们细说明了这些提示策略在各种数据集上的表现。

提示词工程

方法 1：基础/标准/普通提示

基础提示指的是直接向LLM提出查询的方法，而无需进行任何工程改进以提升LLM的性能，这是大多数提示策略背后的核心目标。基础提示在不同的研究论文中也被称为标准提示或普通提示。

方法 2：思维链提示 (Chain-of-Thought, CoT)

在CoT提示策略中，前将其分解为更小、更易处理的子问题的思路进行研究。类似地，作者调查了通过产生一系列思维链或中间推理步骤，如何内在地增强LLMs进行复杂推理的能力。

结果表明，与基础提示相比，CoT提示显示出显著的性能提升。例如，在数学问题解决任务中，CoT提示与基础提示的性能差异最大可达约39%，而在常识推理任务中则可达约26%。这项研究为提示工程领域开辟了新的研究方向。

方法 3：自我一致性 (Self-Consistency)

自我一致性提示可以通过多种方式解决，因此正确答案可以通过不同的推理路径达到的直觉。自我一致性使用了一种新颖的解码策略，不同于CoT使用的贪心策略，包含三个重要步骤。

首先是使用CoT提示LLM，其次是从LLM的解码器中抽取多样化的推理路径，最后是选择在多个推理路径中最一致的答案。与CoT相比，自我一致性在数学问题解决任务上平均提升11%，在常识推理任务上提升3%，在多跳推理任务上提升6%。

方法 4：集成精炼 (Ensemble Refinement, ER)

集成精炼提示方法基于CoT和自我一致性方法进行改进。ER包含两个阶段。首先，给定一个少样本的CoT提示和一个查询，LLM通过调整其温度生成多个回答。每个生成的回答都包含一个推理过程和一个答案。

接下来，LLM根据原始提示、查询和前一阶段的所有生成结果生成更好的解释和答案。这一过程重复多次，然后对这些第二阶段生成的答案进行多数投票，类似于自我一致性的方法，以选择最终答案。ER在许多属于上下文无关问答任务的数据集上表现优于CoT和自我一致性方法。

方法 5：自动思维链 (Automatic Chain-of-Thought, Auto-CoT)

Auto-CoT解决了少样本CoT或手动CoT需要高质量训练数据点的问题。Auto-CoT包含两个主要步骤。首先，将给定数据集的查询划分为几个簇。其次，从每个簇中选择一个代表性查询，然后使用零样本CoT生成其对应的推理链。

作者声称，Auto-CoT在数学问题解决、多跳推理和常识推理任务中要么超越了少样本CoT，要么表现相当。这表明可以省去少样本或手动CoT对训练数据点的策划步骤。

方法 6：复杂思维链 (Complex CoT)

Complex CoT在选择复杂的数据点提示而非简单的。这里定义数据点的复杂性是根据其涉及的推理步骤数量。作者假设，使用复杂数据点作为上下文训练示例可以提高LLMs的推理性能，因为它们已经包含了较简单的数据点。

除了使用复杂数据点作为训练示例外，复杂思维链在解码过程中，类似于自我一致性方法，从N个采样推理链中选择前K个最复杂链中的多数答案作为最终答案。该论文中还引入了一种基线提示方法，称为随机思维链(Random CoT)，其中数据点随机采样，而不考虑其复杂性。复杂思维链在数学问题解决、常识推理、基于表格的数学问题解决和多跳推理任务的各种数据集上平均提高了5.3%的准确性，最高可提高18%的准确性。