论文翻译 | Guiding Large Language Models via Directional Stimulus Prompting 通过定向刺激提示引导大型语言模型-CSDN博客

本文链接：https://blog.csdn.net/m0_49651195/article/details/142642304

摘要

          我们引入了方向性刺激提示（Directional Stimulus Prompting），这是一种新颖的框架，用于指导黑盒大型语言模型（LLMs）朝向特定的期望输出。我们的方法不是直接调整LLMs，而是使用一个小型的可调策略模型（例如T5）为每个输入实例生成一个辅助性的方向性刺激提示。
        这些方向性刺激提示充当微妙的、特定实例的提示和线索，引导LLMs生成期望的结果，例如在生成的摘要中包含特定的关键词。我们的方法通过优化策略模型来探索与期望行为对齐的方向性刺激提示，从而绕过了直接调整LLMs的挑战。策略模型可以通过以下两种方式进行优化：1）使用标注数据的监督式微调；2）基于LLM输出的离线或在线奖励的强化学习。我们在摘要、对话响应生成和思维链推理任务上评估了我们的方法。
        实验表明，该框架在使用极少量标注数据的情况下，一致性地提升了LLMs（例如ChatGPT、Codex、InstructGPT）在这些监督任务上的性能。值得注意的是，仅使用MultiWOZ数据集中的80个对话，我们的方法就使ChatGPT的性能提升了41.4%，与一些完全监督的顶尖模型相匹配或超越。此外，我们方法生成的特定实例的思维链提示，比人类编写的或自动生成的提示，更能提高InstructGPT的推理准确性。代码和数据已公开可用。

1 引言

        近年来，随着Codex、InstructGPT、ChatGPT 、GPT-4 、PaLM 等大型语言模型（LLMs）的兴起，自然语言处理（NLP）领域出现了一种新的范式。这些模型展现出新兴的能力，如强大的上下文学习和少量样本提示能力，这些在之前的“小型”语言模型（如BERT、RoBERTa 、GPT-2 和T5）中是不存在的。这种范式的转变使得NLP领域取得了显著的进步，LLMs展示了令人印象深刻的通用处理能力。然而，由于商业考量和滥用的风险，大多数LLMs没有公开释放其参数，只允许用户通过黑盒API访问。尽管也存在开源的LLMs，但针对特定任务或用例进行微调在计算上可能效率不高。在这种情况下，利用LLMs执行多样化任务的标准方法是编写特定于任务的文本提示，通过黑盒API查询LLMs。尽管LLMs在广泛的语言任务上表现出了相当的性能，但它们在某些特定任务和用例上仍难以生成完全符合期望行为和方向的输出。
        由于直接针对特定任务优化LLMs对大多数用户和开发者来说既低效又不切实际，研究人员转而优化提示。提示工程方法，涉及手动或自动设计最优的特定任务自然语言指令，并选择适当的训练样本在提示中进行演示，已成为许多研究者的关注焦点。尽管付出了这些努力，有效地引导LLMs生成期望结果和有效地利用标注数据仍然是一个重大挑战。
        为了解决这一挑战，我们提出了一个名为方向性刺激提示（DSP）的新框架。该框架在提示中引入了一个名为“方向性刺激”的新组件，以提供微妙的、特定实例的指导和控制LLMs。具体来说，方向性刺激提示作为输入查询的“提示”和“线索”，引导LLMs朝向期望的输出。值得注意的是，这与通过外部来源检索的附加知识增强LLMs的方法不同，因为我们的框架中的方向性刺激提示是基于输入查询生成的。图1比较了我们的提议提示方法DSP与标准提示在摘要任务上的应用。我们的方法通过在提示中包含关键词作为方向性刺激提示，暗示期望摘要应该涵盖的关键点。通过提供这种特定实例的方向性刺激提示，LLMs可以生成更接近期望参考摘要的输出。

图1：将我们的方向性刺激提示与使用LLMs（如ChatGPT）进行摘要任务的标准提示方法进行比较。DSP利用方向性刺激/提示（在此例中为关键词，以橙色突出显示），为LLMs生成摘要（以蓝色突出显示）提供特定实例的指导，以更好地与期望的参考摘要对齐，获得更高的ROUGE分数或其他如人类偏好的度量。

我们使用一个相对较小且可调的语言模型（例如T5）作为策略模型，为每个输入查询生成方向性刺激提示。这种方法使我们能够通过优化小型可调策略模型来绕过直接优化黑盒LLMs的需要。我们使用收集的一些标注数据通过监督式微调（SFT）训练策略模型。在监督式微调之后，我们进一步使用强化学习（RL）优化策略模型，以探索更好的方向性刺激提示。在RL训练期间，我们的目标是最大化定义为下游性能度量或任何基于策略模型生成的刺激条件下LLMs输出的其他度量。

图2:我们提出的框架DSP的概述，我们学习了一个小的可调策略模型来生成定向刺激(在这种情况下是关键字)，为LLM提供特定于输入的指导，以达到期望的目标。策略模型可以使用SFT和/或RL进行训练，其中奖励被定义为下游任务绩效度量，例如总结任务的ROUGE分数，或其他校准度量，如人类偏好。

图2提供了我们框架的概览，以摘要任务为例。我们使用一个紧凑、可调的策略模型来生成方向性刺激提示，该提示指定了LLM生成摘要中应包含的关键词。策略模型可以使用SFT和RL进行训练，其中奖励通常定义为下游任务性能度量，如摘要任务的ROUGE分数，或其他对齐度量，如人类偏好。
我们的框架可以通过选择适当的方向性刺激和相关的奖励，灵活地适应广泛的LLMs和任务。我们在摘要、对话响应生成和思维链推理任务上进行了实验，以评估我们框架的有效性。我们的结果表明，我们的DSP方法可以通过少量的标注数据有效地引导ChatGPT朝向期望的目标。具体来说，我们对黑盒LLMs：ChatGPT、Codex和InstructGPT进行了实验。对于策略模型，我们使用了750M的Flan-T5-Large和220M的T5-Base。对于摘要任务，我们使用关键词作为方向性刺激，暗示期望摘要应包含的关键点。尽管ChatGPT的性能已经相当可观，但仅使用CNN/Daily Mail数据集中的4,000个样本训练的策略模型T5，就提高了ROUGE和BLEU分数4-13%。对于对话响应生成任务，我们训练策略模型生成对话行为，这些行为指示MultiWOZ数据集中目标响应背后的潜在意图。在仅用80个对话训练的策略模型指导下，ChatGPT的性能在综合分数上提高了41.4%，达到或超越了在完整数据集上训练的某些最先进模型的性能。对于思维链推理，我们训练策略模型为每个输入查询生成触发提示，以触发LLM的思维链推理，其性能优于手工编写的和自动生成的提示。

2 定向刺激提示

对于下游任务，存在一个输入空间 X，一个在 X 上的数据分布 D，以及一个输出空间 Y。由于强大的上下文学习和少量样本提示能力，LLMs 可以执行多种任务，并通过在提示中包含描述任务的指令、几个演示示例以及输入查询 x 来生成输出 y。然而，这样的提示并不能始终引导 LLMs 朝向期望的输出，特别是在涉及到细粒度的特定实例期望行为时。例如，在摘要任务的情况下，输入 x 是一篇文章，输出 y 是相应的摘要。不同的摘要器具有不同的风格，并强调文章的不同方面。在这种情况下，仅依靠任务特定指令或演示示例来描述每个样本的这些细微差异，可能不足以有效地引导 LLMs 生成与参考摘要紧密匹配的摘要。
为此，我们的方向性刺激提示（DSP）方法在提示中引入了一小段名为“方向性刺激”的离散令牌 z，这些令牌作为提示和线索，为 LLMs 提供朝向期望方向的细粒度指导。例如，对于摘要任务，方向性刺激 z 可能包含应在期望摘要中包含的关键词。为了为每个输入查询生成这个刺激，我们使用了一个小型可调策略语言模型， $p_{POL}\left ( z\mid x \right )$ 。然后，我们使用这个生成的刺激 z 以及原始输入 x 来构建提示，通过黑盒 API 调用来引导 LLM 生成其输出， $p_{LLM}\left ( y\mid x,z \right )$ 。重要的是要注意，LLM 的参数， $p_{LLM}$ ，是不可访问或不可调整的。总的来说，当使用带有 DSP 的 LLM 执行下游任务时，输出是通过 $y\sim p_{LLM}\left ( \cdot \mid x,z \right )$ ， $z\sim p_{POL}\left ( \cdot \mid x \right )$ 获得的。

2.1 监督微调

为了训练生成LLMs方向性刺激的策略模型，我们首先在一个预训练的语言模型（例如T5、GPT-2等）上对一小部分标注数据进行监督式微调（SFT）。为了收集数据，我们可以根据下游任务试探性地选择或标注每个输入查询x和目标输出y对的“伪刺激”z*。例如，对于摘要任务，我们使用参考摘要中包含的关键词作为伪刺激，而对于对话响应生成任务，我们使用指示期望系统响应背后含义的对话行为（详见第3节）。由此得到的数据集D′ = {(x, $z^{*}$ )}包含输入-刺激对。然后，我们通过最大化对数似然来微调策略模型：

监督微调可以为策略模型提供一个良好的初始点。然而，重要的是要注意启发式选择或注释的伪刺激可能并不总是最优的，并且监督微调的策略模型可能不会为LLM产生最优选的定向刺激，以达到期望的输出。为了克服这一限制，我们还可以结合强化学习(RL)来进一步微调策略模型。通过直接优化LLM对期望目标的输出，强化学习训练使策略模型能够探索并产生更有效的定向刺激。

2.2 强化学习

优化目标我们的目的是通过最大化对齐度量R来引导LLM的生成朝向期望的目标，这个度量可以采取多种形式，如下游任务性能指标（例如，摘要任务的ROUGE分数）、人类偏好或其他定制化指标。从数学上讲，我们旨在最大化以下目标：
由于黑盒LLM的参数不可访问或可调，我们通过优化政策模型来产生定向刺激，引导LLM的生成朝着目标最大化的方向发展。为了实现这一目标，我们定义了另一种测量方法 $R_{LLM}$ ，用于捕捉LLM在给定刺激z条件下的表现:

这使得我们可以将R最大化的最初目标转化为优化政策模型，以产生最大化 $R_{LLM}$ 的刺激。这样，LLM可以有效地作为一种评价函数，引导政策模型产生更有效的定向刺激。因此，式2中LLM的优化目标等于策略模型的优化目标:

然而，上述优化对于策略模型来说是难以处理的。为了解决这个问题，我们将策略模型优化制定为一个RL问题，并采用近端策略优化(PPO)。我们使用策略模型初始化一个策略网络 $\pi _{0} = p_{POL}$ ，然后用PPO更新π。策略模型生成一系列令牌作为刺激z的过程可以看作是马尔可夫决策过程(MDP) $\left \langle S,A,r ,P\right \rangle$ ，其具有状态空间S，动作空间a，奖励函数r和状态转移概率P。在一个事件的每个时间步t中，代理根据当前策略网络 $\pi \left ( z\mid x,z_{<t} \right )$ 的分布从词汇表V中选择一个动作(令牌)。当选择一个序列结束符号时，事件结束，并生成刺激z。我们可以通过优化奖励r来微调策略网络π:

奖励函数 回顾一下，我们的目标是最大化方程4中的目标，这可以作为奖励r使用。为了防止策略网络π从初始策略模型 $p_{POL}$ 偏移太远，我们还添加了一个KL散度惩罚奖励。因此，最终的奖励变为：

接下来[80,54]，我们在训练过程中动态调整系数β:

为了优化策略网络π，我们使用了来自[54]的PPO的NLPO版本，它是专门为语言生成器设计的。为了解决PPO中大动作空间的问题，NLPO学习使用top-p采样来掩盖词汇表中不太相关的标记。这种技术将动作空间限制为最小的令牌集合，其累积概率大于给定的概率参数p，我们在实验中将其设置为0.9。策略网络π和值网络都是从监督微调策略模型 $p_{POL}$ 初始化的，值网络的最后一层随机初始化为使用回归头输出标量值。

3 实验

我们提出的框架DSP可以灵活地应用于各种类型的LMs和生成任务。在这项工作中，我们重点研究了摘要、对话响应生成和自动提示生成任务。我们主要使用预训练的T5或fln -T5[53,11]来初始化策略模型，并评估OpenAI的ChatGPT (gpt-3.5-turbo)、Codex (code-davinci-002)和InstructGPT (text-davinci-002)。我们的实验旨在评估我们的方法在指导黑盒LLM生成所需输出方面的有效性。

3.1 总结

        最近的研究[16, 75, 4]表明，像GPT-3、InstructGPT和ChatGPT这样的LLMs，能够在零样本或少样本提示下生成高质量的摘要。然而，它们基于参考的评价基准性能，如ROUGE分数，仍然落后于微调方法，表明生成的摘要可能并不完全符合参考摘要的风格和重点。在我们的实验中，我们试图通过提供应在期望摘要中提及的关键词作为提示，来指导LLMs生成与参考摘要更接近的摘要。我们使用比较生成摘要与参考摘要的指标来评估有效性。值得注意的是，其他期望的方向，如更好地与人类偏好对齐，也可以追求。
        数据集和评估我们在CNN/Daily Mail数据集上进行实验，这是一个广泛使用的新闻摘要基准。为了降低API使用的成本，我们从训练集中的287,113个样本中选取了1,000、2,000和4,000个文章-摘要对作为子集进行训练。对于评估，我们按照之前的工作[16, 65]随机选择了500个样本，这已被证明提供了足够的统计功效[8]。我们使用基于重叠的指标，包括ROUGE [33]、BLEU [47]和Meteor [3]，以及基于相似度的指标BERTScore [74]，来比较生成的摘要与参考摘要。报告的评价分数是在每个查询上对ChatGPT进行三次推理的平均值，使用的温度为0.7，top_p为1.0。在标准提示中，我们使用相同的三个演示示例，并在我们的方法DSP的提示中添加关键词作为方向性刺激。我们实验中使用的确切提示在附录中提供。
         监督式微调细节 我们使用关键词作为伪刺激来训练策略模型，正如第2.1节讨论的监督式微调。为了收集数据，我们使用textrank [41, 5]从文章和摘要中自动提取关键词，并且只保留那些出现在参考摘要中的关键词。因此，我们为数据集中的每个文章-摘要对获得了一个提取关键词的列表。为了将它们转换成一个作为刺激的句子，我们使用分隔符“;”将它们连接起来，结果得到的刺激格式为“[关键词1]; [关键词2]; ... ; [关键词N]。”我们使用构建的文章-刺激对通过监督式微调来训练策略模型。训练的输入格式为“提取关键词：[文章]”，而输出则是由关键词组成的目标刺激。策略模型以2 × 10^-5的学习率训练了5个周期。

由于我们的目标是指导ChatGPT生成与参考摘要更接近的摘要，我们采用基于参考的自动度量分数作为校准度量奖励。具体来说，我们计算生成的摘要和参考摘要之间的ROUGE-Avg分数作为奖励，重标系数为10。我们通过实验发现，其他自动评估指标，如BLEU和Meteor，也有类似的表现。为了减少方差，我们使用温度为0.7的ChatGPT为每个输入查询生成四个输出，并计算平均奖励。此外，我们分配了一个逐步奖励，我们发现这可以提高训练过程的效率和稳定性。具体来说，策略模型在每集生成一系列关键字，在此期间，如果一个关键字出现在参考摘要中，我们将给予1的奖励，否则将给予-0.2的惩罚奖励。我们训练策略网络51k集，每批5个epoch，批大小为8，学习率为2 × 10−6。式7中的KLtarget和β0分别设为0.5和0.005。

图3:使用CNN/Daily Mail数据集不同数量的训练样本，标准提示下的ChatGPT与SFT和SFT+RL训练的DSP的性能比较。

图4:CNN/Daily Mail数据集中1000个样本的训练曲线。

我们用标准提示评估ChatGPT的性能，我们的方法是在不同大小的训练数据上使用SFT或SFT然后RL (SFT+RL)训练的DSP，并将结果呈现在图3中。可以看出，与标准提示相比，我们提出的DSP提高了所有的评价分数。具体来说，受监督的微调策略模型生成刺激，有效地引导ChatGPT生成与参考摘要紧密一致的摘要，从而提高基准性能。此外，RL对策略模型的额外微调导致了进一步的性能改进，表明RL在探索更好的定向刺激以最大化奖励方面的有效性。随着训练数据规模的增加，性能的提高变得更加显著。尽管使用了1,000到4,000个样本的小集合来保持较低的API使用成本，但我们的DSP方法仍然始终如一地将ChatGPT的ROUGE、BLEU和Meteor分数提高了1-2分。ChatGPT已经取得了相当大的性能。然而，由于作为奖励的基于语义的度量BERTScore和基于重叠的度量ROUGE之间存在差异，RL训练后BERTScore的改善可能相对不太显著。图4给出了在1000个样本的训练过程中，训练奖励和ROUGE-1分数在验证集上的变化。我们可以看到，性能与训练奖励密切相关，并且使用NLPO算法的训练相对稳定。

3.2 对话响应生成

        近年来，基于LLM的聊天机器人如ChatGPT4和Sparrow5的数量有所增加。这些聊天机器人通常针对开放域对话，以便在没有任何特定目标的情况下与用户就广泛的话题进行互动。然而，这些聊天机器人在处理面向任务的对话时仍面临挑战，在这些对话中，它们需要帮助用户完成特定的目标或任务，如预订或点餐[4, 22]。与开放域对话不同，面向任务的对话通常要求聊天机器人遵循特定的业务逻辑，并基于API调用或数据库查询的可靠信息进行回应。为了解决这个限制，我们训练了一个小型策略模型，从训练数据中学习底层对话策略，从而指导LLMs生成可靠的系统响应，帮助用户完成任务。
        数据集和评估 我们在流行的面向任务对话数据集MultiWOZ [7]上进行实验，包括MultiWOZ2.0（原始版本）和MultiWOZ2.1版本[15]。该数据集为每个对话轮次提供了用户话语、对话行为和系统响应的注释。目标是给定历史对话上下文作为输入，生成系统响应。我们利用对话行为作为实验的伪刺激，这代表了目标系统响应的沟通意图。训练集中有8,438个对话。我们只使用1%（80个对话）和10%（800个对话）来训练策略模型，并在包含1,000个对话的完整验证和测试集上评估性能。我们使用标准的评估指标：Inform，衡量提供满足用户要求的相关实体的比例；Success，衡量回答所有请求属性的比例；BLEU：与参考响应的语料库级BLEU分数；以及整体指标Combined score = (Inform+Success)×0.5+BLEU。同样，我们报告三次推理的平均分数。在使用DSP或标准提示时，我们使用相同的三个演示示例。
        监督式微调细节 为了对策略模型进行监督式微调，我们将每个样本的输入格式化为“将对话转换为对话行为：[对话上下文]”，目标是以[77, 63]中的相同格式进行对话行为的言语化。例如，对话行为<hotel, inform, choice>, <hotel, inform, type>, <hotel, request, area>将被转换为“[hotel] [inform] choice type [request] area”，这表明系统应该告知可用的酒店选择及其类型，并询问用户喜欢的区域（详见附录中的示例）。请注意，提供的对话行为注释可能不是同一对话内容的唯一有效对话行为[77]，因此我们希望通过RL训练探索多样的有效对话行为（方向性刺激）。
        RL训练细节 Success和Inform率的评估指标是在对话级别定义的，而BLEU分数是在语料库级别计算的。然而，我们的训练和推理是在对话轮次级别上进行的。因此，我们使用句子级别的SacreBLEU [51]分数作为奖励。与摘要实验相同，我们使用LLM生成每个输入的四个输出，温度为0.7。策略网络训练了52k个回合，每个批次5个周期，批次大小为8，学习率为2 × 10^-6。由于生成的对话行为应遵循业务逻辑和本体论，我们确保更新后的策略网络不会显著偏离原始策略模型。因此，我们在方程7中将KLtarget和β0分别设置为0.2和0.01。在训练期间，我们使用top-k采样并将k设置为50以探索动作空间。在推理期间，我们使用beam size为5的束搜索解码。

表1:不同方法在MultiWOZ 2.0&2.1数据集上的响应生成性能。和梳子。分别表示成功和综合得分指标。

结果我们评估了我们的方法DSP对Codex和ChatGPT的影响，并将性能与在完整训练集（8438个对话）上训练的几个代表性面向任务对话模型进行了比较，包括DAMD [77]、MinTL [34]、Soloist [49]、SimpleTOD [21]、DoTS [23]、PPTOD [63]、UBAR [72]和GALAXY [19]。表1总结了整体性能比较，我们得到以下观察结果：（1）我们的方法DSP显著提高了Codex和ChatGPT的成功和Inform率，表明它们更好地理解了场景并生成了适当的响应，帮助用户完成他们的任务。（2）然而，语料库级别的BLEU分数没有提高，这可能是因为LLMs生成的响应具有不同的说话风格和词汇，因为它们没有看到oracle系统响应。尽管如此，高成功和Inform率证明了我们方法在提供有用和可靠响应方面的有效性。（3）增加监督式微调样本的数量并不能保证性能提升，但使用RL进一步微调策略模型始终能提供性能增益。这表明RL训练鼓励策略模型探索更多模型偏好的刺激，而监督式微调可能仅仅生成与伪标注数据紧密对齐的刺激，这并不一定是最优的。（4）我们的方法仅用80个对话就取得了显著的成功，超过了几个完全训练的TOD模型，特别是在成功和Inform率方面。使用10%的训练数据（800个对话），我们的方法提供了与当前SOTA方法使用全部训练。

3.3 思维链推理

        当前方法主要使用通用任务特定的提示，而LLMs对这些提示表现出敏感性。研究[69, 26, 79]表明，LLMs的性能可以根据使用的提示而有所不同。因此，以前的大量工作集中在手工制作[56]或自动生成[61, 79]更好的提示上。然而，这些努力主要关注任务特定的提示，这些提示可能并不适用于任务的每个实例。在我们的实验中，我们采用我们的方法来生成特定实例的触发提示，以引出思维链（Chain-of-Thought, CoT）推理。具体来说，我们训练了一个策略模型（t5-base）来生成特定实例的CoT触发提示，例如“让我们一步一步地思考”，以最佳地提示不同的样本。
        数据集和评估 我们采用了先前工作[26, 79]的实验设置，在那里我们测试了InstructGPT（text-davinci-002）使用不同触发提示的零样本CoT推理能力。MultiArith数据集[57]中有600个示例，我们将其分为300/50/250作为训练/验证/测试集。至于AQuA数据集[35]，我们使用标准的测试集，包含254个样本，从标准训练集中取300个样本用于我们的训练，以及100个样本用于我们的验证。我们报告推理准确性。
        监督式微调细节 对于监督式微调（SFT），我们首先在训练集上使用[26]中测试的14个人工制作的提示分别进行推理。然后，我们选择了那些导致正确CoT推理结果的提示和查询对，以形成SFT的训练集。这些查询-提示对被用来训练一个t5-base策略模型，训练2个周期，模型输入是查询实例，目标输出是一个触发提示。
        RL训练细节 在SFT之后，策略模型生成的提示被用来触发InstructGPT进行零样本CoT提示。推理准确性被用作强化学习（RL）的奖励。正确推理结果分配1的奖励，否则为0。我们进行了20次训练迭代（106k个回合），每个批次5个周期，批次大小为8，学习率为2e-6。KLtarget和β0的参数分别设置为0.5和0.001。

表2:不同提示下InstructGPT (text-davinci-002)的零样本思维链表现。*我们的方法训练策略模型来生成特定于实例的提示触发器，并将其与[26,79]中的特定于任务的提示进行比较。

结果我们将使用我们生成的特定实例提示的性能与使用14个人工设计的任务特定提示（我们将其作为伪刺激来构成SFT的训练集）以及APE方法[79]自动发现的提示进行了比较。请注意，这15个提示都是通用任务特定的，并且用于整个测试集，而我们的则是特定实例的。性能比较显示在表8中。可以看出，使用不同的任务特定提示时，InstructGPT的性能有显著变化。与14个任务特定的人工设计提示相比，DSP通过使用特定实例的提示提高了性能。它也胜过了APE方法发现的提示。仅依靠包含14个人工设计提示的数据集对策略模型进行监督式微调，并不能使其达到最佳性能。在RL微调之后，策略模型被鼓励探索更好的特定实例触发提示，从而进一步提高了性能。

4 相关工作

近年来出现了GPT-3[6]、Codex[9]、InstructGPT、ChatGPT[46]、PaLM[10]、LaMDA[66]等llm，它们在自然语言处理领域显示出巨大的前景。这些法学硕士通常有大量的参数，需要大量的训练数据。由于其可缩放性，这些模型表现出许多突发能力，如情境学习、少镜头提示、思维链提示和指令跟随[6,46,69]。然而，大多数llm不是开源的，只能通过黑盒api访问，用户通过黑盒api发送提示查询并接收响应。

虽然存在开源LLM，如OPT-175B[73]和Bloom[58]，但它们的本地执行和微调需要大量的计算资源，这对于大多数研究人员和用户来说可能是不可行的。然而，尽管LLM在各种任务上表现相当出色，但在特定的下游任务和用例上，LLM通常无法生成与期望输出完全一致的输出[16,42,18]。我们的方法试图通过将由小型可调LM生成的定向刺激引入提示符来解决这一限制，从而为黑盒LLM提供更细粒度的指导和控制。

         提示优化和工程 通过寻找最佳提示，在下游任务上高效优化预训练的语言模型（LMs）一直是先前研究关注的焦点。一种方法涉及调整软提示，这些软提示是连续的嵌入向量，可以通过梯度下降方法进行优化[32, 30, 67, 2, 64]。然而，梯度需求以及将梯度和连续提示通过黑盒API传递的挑战，使得这些方法对于黑盒LLMs来说不太实用。研究人员还试图通过设计任务特定的自然语言指令，并选择合适的训练样本作为提示中的上下文演示来寻找最佳提示。这些方法包括手动工程[50, 6, 56]，编辑[61, 76]，强化学习[13, 39]和自动生成[79]。尽管付出了这些努力，这些提示并不总是能有效引导LLMs生成期望的输出，特别是对于那些难以使用任务特定指令和演示示例描述的细粒度的特定实例行为。为了解决这个限制，我们的方法能够提供更细粒度的特定实例指导，这是由一个小型的可调策略模型生成的，该策略模型通过监督式微调和/或强化学习进行优化。
        可控文本生成 语言模型（LMs）的控制已经得到了广泛研究。早期的方法在包含期望属性的数据集上对LMs进行微调[17]。[24]提出了类条件LMs，生成带有预定义控制代码的文本。然而，直接LM训练成本高昂。为了解决这个问题，PPLM [12]训练了一个属性模型，并通过梯度传递来控制生成。GeDi [27]和DExperts [36]使用类条件分布作为生成判别器来指导生成，减少了计算复杂度。这些方法要么需要额外的LM训练，要么需要内部梯度和逻辑，使得它们不适用于黑盒LLMs。我们的方法提出了一个解决方案，通过在输入查询提示中插入方向性刺激并基于返回输出进行优化，来控制黑盒LLMs。
        自然语言处理中的强化学习 强化学习已经成功地应用于各种NLP任务，如句法解析[44, 29]，机器翻译[71, 28]，摘要[48, 62]，对话系统[31]等。语言模型在其词汇表中定义了令牌的概率分布，文本生成问题可以自然地被构建为在RL设置中选择一个动作。因此，已经有大量研究努力通过RL优化LMs，通常是通过使它们与人类偏好对齐[80, 70, 40, 62]。例如，LLM InstructGPT [46]通过RL进行优化，以更好地遵循用户的指令和意图。与这些直接更新LLMs以与人类偏好对齐的工作不同，我们的工作优化了一个小型策略模型，该模型生成文本（刺激）以指导LLMs生成更符合人类偏好的输出，而不是直接优化LLMs，从而绕过了低效的LLM优化。

5 结论与未来工作

在本文中，我们介绍了方向性刺激提示（DSP），这是一个新的提示框架，用于为黑盒LLMs提供细粒度和特定实例的指导，以生成期望的输出。我们使用一个可调的策略模型来生成方向性刺激，以提供此类指导，并将黑盒LLMs的优化转换为策略模型的优化。实验结果证明了我们方法的有效性。DSP不仅为黑盒LLMs提供了更好的控制和指导，而且有效地利用了标注数据。此外，生成的刺激为LLMs的行为提供了有价值的见解和解释。在这项工作中，我们使用启发式选择或标注的伪刺激数据来对策略模型进行监督式微调。对于未来的工作，我们希望探索在策略模型和LLMs之间使用一种“机器语言”的可能性，这种语言可能并不直观地受到人类的偏好，但能更好地传达指导信息，以及探索文本之外的其他形式的方向性刺激。