Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery - 论文翻译

anniewwy

已于 2024-04-19 09:18:11 修改

阅读量1.2k

点赞数 13

分类专栏：论文翻译文章标签： LLM AutoPrompt

于 2024-04-16 14:06:06 首次发布

本文链接：https://blog.csdn.net/anniewwy/article/details/137823031

版权

论文翻译专栏收录该内容

21 篇文章

订阅专栏

论文链接：https://arxiv.org/pdf/2302.03668.pdf
项目代码：https://github.com/YuxinWenRick/hard-prompts-made-easy

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Abstract
1 Introduction
2 Related Works
3 Methodology
4 Prompt Inversion with CLIP
5 Discrete Prompt Tuning with Language Models
- 5.1 Datasets and Setup
- 5.2 Results
6 Safety Concerns
7 Conclusion

Abstract

现代生成模型的优势在于它们能够通过基于文本的提示来控制。典型的“硬”提示由可解释的单词和标记组成，并且必须由人类手工制作。也有“软”提示，由连续的特征向量组成。这些可以使用强大的优化方法发现，但它们不能被轻易解释、跨模型重用或插入基于文本的界面。

我们描述了一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法。我们的方法自动为文本到图像和文本到文本应用程序生成硬基于文本的提示。在文本到图像设置中，该方法为扩散模型创建了硬提示，允许 API 用户轻松生成、发现和混合和匹配图像概念，而无需事先了解如何提示模型。在文本到文本设置中，我们表明可以自动地发现硬提示，这对于调整 LM 进行分类是有效的。

1 Introduction

提示工程是创建指导生成模型的指令的最新技术。它是解锁大模型在图像生成和语言任务中的能力的关键。正如今天所展示的那样，提示工程方法可以大致分为两个阵营。首先，有硬提示方法，它使用手工制作的可解释标记序列来引出模型行为。硬提示发现是一个专门的炼金术，许多好的提示是通过反复试验和错误，或者纯粹的直觉来发现的。然后是软提示，它由连续值的语言嵌入组成，它们与任何人类可读的标记都不对应。软提示的发现是一个数学科学；基于梯度的优化器和大型精选数据集用于为专业任务生成高性能的提示。

尽管硬提示的工程有很多困难，但它们具有优势。硬提示及其利用的技巧可以被混合、匹配和变异来执行一系列不同的任务，而软提示是高度专业化的。硬提示是可移植的；它们可以在一个模型上被发掘，然后部署到另一个模型上。这种可移植性对软提示来说是不可能的，因为模型之间嵌入的维度和表示空间的差异。最后，当只有对模型的 API 访问可用并且不可以控制输入的嵌入时，可以使用硬提示。

这项工作探索了使用有效的梯度方法来优化和学习离散文本，强调了提示工程的应用。在这样做的过程中，我们通过优化来解锁学习硬提示的能力。学习的硬提示将软提示的易用性和自动化与硬提示的可移植性、灵活性和简单性相结合。我们的主要贡献总结如下：

我们提出了一种使用连续优化学习硬提示的简单方案。该方案建立在现有的用于优化文本的梯度重投影方案的基础上，并从量化网络的大规模离散优化文献中吸取教训。
我们表明，这种优化方法可用于学习用于图像生成的硬提示，为我们提供了一个通用的工具来创建引发特定图像样式、对象和外观的提示。学习的提示与高度专业化的提示生成工具具有竞争力，尽管使用了更少的令牌并且不包含手工制作的组件。
我们还表明，我们学习的硬提示在语言分类任务上表现良好，优于其他文本优化方案。学习到的提示在网络之间可以很好地迁移，并且当它们被流畅性约束正则化以提高可解释性时，这种转移得到了增强。

除了捕获学习提示的可量化好处外，所提出的方案还可用于促进提示的探索和发现，因为优化通常会恢复单词和标记，它们同时是高度可解释且高度不明显的。

2 Related Works

Prompting in Language Models Brown等人(2020)是最早证明提示对预训练语言模型任务适应的能力的人之一。这种“指令调整”范式已成为提高大型模型遵循复杂、特定于任务的指令的能力的标准方法（Sanh 等人，2022；Chung 等人，2022）。然而，自动地找到合适的用于这些目的的文本提示集，即硬提示，仍然是一个开放的挑战。Lester等人(2021b)简化了Li & Liang(2021)提出的“前缀调优”技术，以建立被称为标准软“提示调整”的过程，其中他们优化连续值的嵌入，它们是被附加到输入标记的真实嵌入之前。然而，Khashabi等人(2022)的后续工作表明，该技术产生的嵌入序列可以映射到标记序列，以一个非常有限语义审查性。为了解决这些限制，在这项工作中，我们构建了一个将连续软提示优化与硬词汇约束混合的方法，从而产生特定于任务的、可解释的标记。

Discrete Optimization for Language AutoPrompt (Shin等人，2020)是第一个用于 transformer 语言模型的离散提示优化框架之一，后续方法包括无梯度短语编辑方法(Prasad等人，2022)，一种基于Langevin动力学的嵌入优化方法(Shi等人，2022)和强化学习方法(Deng等人，2022)。

我们将两种基于梯度的方法作为基线: FluentPrompt和AutoPrompt (Shi等人，2022;Shin等人，2020)。AutoPrompt 利用 Ebrahimi等人提出的HotFlip。(2018)，利用梯度贪婪地为提示中的每个位置选择最优令牌，以找到好的候选者的选择。然而，AutoPrompt 可能会变得非常昂贵。对于每个梯度步骤，该方法需要对提示中每个位置的每个候选进行评估，添加更多的前向传递。为了避免额外的前向传递，我们最初考虑了有和没有添加流畅性约束的 AutoPromptk=1，但我们发现具有流畅性约束的 AutoPromptSGD 优于其他，如图 12 所示，因此我们使用 AutoPrompt 的 SGD 版本作为我们的其他基线，类似于 Shi 等人。 (2022)。FluentPrompt 和 AutoPrompt 不同的地方是它通过利用 Langevin 动力学 (Kumar et al., 2022) 来优化提示嵌入，同样添加了一个流畅性惩罚。

对于上面讨论的基线，在每个更新步骤的最后，优化的提示嵌入被投影到它们的最近邻嵌入上，以确保优化是在离散的自然语言标记集上执行的。然而，如果最近邻的嵌入非常远并且学习率没有被正确调整，嵌入可能会变得停滞，这可能需要大量的超参数调整，如图 8 所示。这种约束的成本是一个优化可以找到的解决方案的灵活性的损失。另一方面，软提示不会以这种方式受限，但只是将训练好的软提示夹逼到最近的离散提示会大大降低性能就像 Khashabi 等人 (2022) 观察到的。

Prompt Discovery from Images 从图像中提取丰富信息并通过自然语言文本将其传达的过程称为图像字幕(image captioning)。Zhang et al. (2021), Hu et al. (2022), 和 Li et al. (2022) 实现了这一目标，通过在图文对上训练大型字幕模型。然而，这些字幕通常是通用的，并且可能无法准确地反映新的或没见过的对象。在 Gal et al. (2022) 的工作中，作者提出了一种利用软提示来优化一个文本引导的扩散模型的方法，它允许生成与原始图像相似的视觉概念。在这种情况下，虽然最终的软提示是有效的，但通过扩散模型进行优化是非常昂贵的，并且提示既不可解释也不可移植。

Discrete Optimization 离散优化器长期以来一直用于训练具有量化的（例如二进制）权重的神经网络。在这种情况下，梯度的每一步之间重新投影的方法称为随机凑整。然而，众所周知，这种方法缺乏连续优化的收敛保证(Li et al.， 2017)。在过去的十年中，随机凑整被更新的优化器所取代，它维护一个连续的，而不是离散的，权重的表示 (Courbariaux et al.， 2015)。这些优化器始终导致更高的准确性(Rastegari et al., 2016; Courbariaux et al., 2016) a 并避免陷入局部最小值 (Li et al., 2017)。

我们从二元网络社区中吸取的这些经验教训中汲取灵感，并调整它们以改进和简化语言的离散优化器。

3 Methodology

Learning Hard Prompts 我们现在介绍我们的有效且易于使用的技术进行离散提示优化。该过程需要以下输入：一个冻结的模型 $\theta$ 、一个可学习的嵌入序列 $\mathbf{P} = [\mathbf{e_{i}},..\mathbf{e_{M}}]，\mathbf{e_{i}}\in \mathbb{R}^{d}$ ，其中 $\mathbf{M}$ 是要优化的向量的“令牌”数量， $d$ 是嵌入的维度。此外，我们采用目标函数 $\mathcal{L}$ 。令牌空间的离散性是使用投影函数 $\text{Proj}_{\mathbf{E}}$ 实现的，该函数处理提示中的单个嵌入向量 $\mathbf{e_{i}}$ ，并将它们投影到在嵌入矩阵 $E^{|V|\times d}$ 中离他们最近的邻居，这里 $∣ V ∣$ 是模型的词汇表大小，我们将这个操作的结果表示为 $\mathbf{P'}=\text{Proj}_{\mathbf{E}}(\mathbf{P}):=[\text{Proj}_{\mathbf{E}}(\mathbf{e_{i}}),...\text{Proj}_{\mathbf{E}}(\mathbf{e_{M}})]$ 。此外，我们定义了一个广播函数 $\mathcal{B}:\mathbb{R}^{M\times d \times b}$ ，它在每个批次中将当前提示嵌入 ( $\mathbf{P}$ ) 重复 b 次。

形式化地来说，为了学习硬提示，我们通过测量 $\mathbf{P}$ 在任务数据上的性能来最小化以下风险： $R(\mathbf{P'})=\mathbb{E}_{D}(\mathcal{L}(\theta(\mathcal{B}(\mathbf{P,X})),\mathbf{Y}))$

Our Method 我们提出了一种简单但有效的基于梯度的离散优化算法，它结合了基线的离散优化方法和软提示优化的优点。我们的方案的步骤，我们称之为PEZ，具体定义在算法1中。该方法保持连续的迭代，这在我们的应用中对应于一个软提示。在每个前向传递期间，我们在计算梯度之前首先将当前嵌入 $\mathbf{P}$ 投影到最近邻 $\mathbf{P'}$ 。然后，使用离散向量 $\mathbf{P'}$ 的梯度，我们更新连续的/软迭代， $\mathbf{P}$

4 Prompt Inversion with CLIP

我们学习硬提示的方法非常适合多模态的视觉语言模型。使用这些模型，比如CLIP (Radford et al., 2021)，我们可以使用 PEZ 来发现描述一个或多个目标图像的说明文字。反过来，这些发现的说明文字可以部署为图像生成应用程序的提示。由于大多数文本引导的扩散模型利用预训练的文本编码器，例如 CLIP 文本编码器，并在训练期间冻结它们，我们可以使用这些与下游扩散模型直接相关的预训练文本编码器来发现提示。例如，我们可以优化一个描述图像的说明文字，并将该说明用作扩散模型的提示，以生成具有相同内容的其他图像。

由于 CLIP 模型有自己的图像编码器，我们可以利用它作为损失函数来驱动我们的 PEZ 方法。这样，我们只针对它们与 CLIP 图像编码器的余弦相似度来优化提示，这样可以避免对完整的扩散模型的梯度计算。

形式化地说，给定一个文本编码器函数 $f$ 和一个图像编码器函数 $g$ ，我们通过最小化以下目标来优化对应于一个目标图像 $x$ 的硬提示嵌入 $\mathbf{P}$ ： $\mathcal{L}(\mathbf{P},x)=1-\mathcal{S}(f(\mathbf{P}),g(x))$ ，其中 $S$ 是两个向量之间的余弦相似度。

4.1 Experimental Setting

我们对具有不同分布的四个数据集进行了实验：LAION (Schuhmann et al., 2022)、MS COCO (Lin et al., 2014)、Celeb-A (Liu et al., 2015) 和 Lexica.art (Santana, 2022)。LAION 包括从互联网上抓取的超过 500 亿张不同的图像，包括照片和绘画。MS COCO 主要包含多个常见对象的现实生活照片，而 Celeb-A 由名人肖像组成。Lexica.art 是一组 AI 生成的绘画及其提示。

我们通过原始(目标)图像和使用学习硬提示生成的图像之间的图像相似度来衡量提示的质量。为此，我们使用一个更大的参考 CLIP 模型 OpenCLIP-ViT/G，该模型在优化过程中没有被使用，并作为图像之间语义相似性的中性度量。

我们选择 Stable Diffusion-v2 (Rombach et al., 2022) 作为我们的生成模型，以及开源CLIP模型 OpenCLIP-ViT/H (Cherti et al., 2022) 来制作提示，因为两者都共享相同的文本编码器。在提示优化过程中，我们使用 0.1 的通用学习率，并使用 AdamW 优化器运行 3000 个优化步骤（Loshchilov & Hutter，2017）。对于 Stable Diffusion-v2，我们将引导尺度设置为9，推理步骤数设置为25。对于每个数据集，我们随机抽取100个数据点，并使用不同的随机种子在5次运行中平均CLIP分数。

一个使用CLIP自动发现硬提示的自然基线是 CLIP Interrogator。为了生成描述性硬提示，该工具首先使用预训练的字幕模型 BLIP (Li et al., 2022) 来创建目标图像的说明文字。然后，基于关键字和目标图像之间的 CLIP 分数，将预先收集的关键字库中的前 k 个关键字附加到说明文字中。这些关键字是从各种来源收集的，包括来自提示工程的 5,265 个艺术家名称，例如“Van Gogh”和 100,970 个短语，从而产生不同的集合。我们发现这个关键字库包含来自 Lexica.art 数据集的大多数短语。CLIP Interrogator 然后贪婪地对关键字进行采样，直到提示达到CLIP的令牌长度限制为77。

4.2 Results

我们在图2中展示了使用我们的方法学习到的示例硬提示和相应的产出。生成的图像清楚地表明，提示有效地捕获了目标图像的语义特征。此外，世代与CLIP评分和视觉检查下测量的原始图像高度相似。此外，硬提示不会过度拟合原始目标图像，并在给定不同的随机种子的情况下会生成一组不同的生成图像。

提示是人类可读的，包含真实单词和乱码的混合（非单词标记序列）。然而，提示中包含的有效词提供了有关图像的大量信息。例如，在第一行中，我们可以看到单词“milkyway”和“campfire”是目标图像的两个主要元素。有趣的是，优化的提示也可能包括表情符号，如第二行所示。表示侧面的树以及图像的颜色主题。优化过程似乎选择这些表情符号来包含有用的信息，同时保持提示简洁。

此外，我们在表 1 中展示了定量评估。我们的方法在所有四个数据集上都一致执行，并且优于其他基于梯度的优化基线方法（完整表可以在表 7 中找到）。值得注意的是，我们可以获得与CLIP interrogtor相似的性能，它在LAION、MS COCO、Lexica.art上CLIP得分最高，但不包括 Celeb-A (CLIP Interrogor中的关键字库不包括许多与真实人脸相关的单词)。然而，CLIP Interrogator 使用大型策划提示数据集、图像字幕模型 BLIP 和大量的标记（多达 77 个），而我们提出的方法仅使用 CLIP 模型进行提示发现，总共 8 个标记证明了它同时的简单性和强度。

我们消融了这些差异中的每一个。为此，我们在我们的优化方法中包含了关键字库，并且只允许从关键字库中投影令牌。总体而言，我们发现，当将此约束添加到我们的模型中，并且禁用 BLIP，来在平等的基础上比较两种方法，我们在 LAION 和 Lexica.art 上弥补了方法之间的大部分的定量差异。此外，减少 CLIP interrogtor 的令牌长度会导致性能的急剧下降，再次，特别是在通过比较相同令牌长度为8的两种方法进行归一化时。我们注意到，尽管 Stable Diffusion 和 CLIP 共享相同的文本编码器，但在我们的评估中，软提示与所有的硬提示方法相比，并不能很好地迁移。

Prompt Length 我们进一步消融来探索最佳的令牌数量。在图 5 中，我们发现较长的提示在使用 Stable Diffusion 生成时不一定会产生更好的结果，即使它们确实减少了 CLIP 图像编码器的损失。因此，长提示会过拟合并且可转移性较差，我们根据实验发现长度为16 的提示会导致最泛化的性能。

4.3 Style Transfer

所提出的方法也可以很容易地适应风格迁移。我们遵循Gal等人(2022)中的软提示研究的设置，但用我们的硬提示。给定几个具有相同样式的示例，我们将它们的共享风格特征提取为一个单独的硬提示，并使用该提示将风格应用于新对象或场景。图 3 展示了风格迁移的两个示例，表明我们的方法可以轻松将共享的风格元素嵌入到提示中，并将它们应用于新的概念中。模板和学习到的提示可以在附录 A.1 中找到。

4.4 Prompt Concatenation

学习到的硬提示在作为复杂场景的可组合构建块方面也非常有用。我们在图 4 中对此进行了测试，我们分别为两个不相关的图像生成提示，然后通过连接它们的提示来融合这两个图像。我们发现，即使是不同的概念，例如画中的海滩上的马和真实世界中的森林中的落日，可以通过它们生成的提示来组合。

4.5 Prompt Distillation

我们可以使用我们的提示优化方法的另一个应用是提示的蒸馏，即在保持提示能力的同时减少提示的长度。蒸馏操作在扩散模型的文本编码器具有有限最大输入长度的情况下很有用，例如 CLIP 模型，其最大输入长度为77 个标记。此外，长提示可能包含冗余和不重要的信息，特别是当手工制作时，我们的目标是提取它们的本质，只保留提示中的重要信息。我们优化了一个更短的提示来匹配更长的提示的特征，简单地基于其文本编码器 $f$ 。给定一个目标提示的嵌入 $\mathbf{P}_{\text{target}}$ 和可学习的嵌入 $\mathbf{e}$ ，我们只需将我们的损失修改为： $\mathcal{L}=1-Sim(f(\mathbf{P}_{\text{target}}),f(\mathbf{P}))$ 。我们用 $|\mathbf{P}|/|\mathbf{P}_{\text{target}}|$ 来定义蒸馏率。

在图6中，我们展示了原始提示和四种不同的蒸馏率(0.7, 0.5, 0.3, 0.1)的提示生成的图像。我们在这里看到，即使只有 3 或 4 个标记，硬提示仍然可以生成与原始概念非常相似的图像，成功地蒸馏了更长的人造指令。

5 Discrete Prompt Tuning with Language Models

在文本到文本设置中，算法 1 的目标是发现一个离散的标记序列，也就是硬提示，这将提示语言模型去预测一个分类任务的结果。由于文本的一个重要特性是它的流畅性，Shi et al. (2022) 发现流畅度可以提高提示的可读性和性能。因此，我们将本节中的优化目标定义为任务损失和流畅性损失的加权函数，

$\mathcal{L}=(1-\lambda_{\text{fluency}})\mathcal{L}_{\text{task}} + \lambda_{\text{fluency}}\mathcal{L}_{\text{fluency}}$

对于所有方法，我们设置λ = 0.003，类似于Shi et al. (2022)，我们在没有流畅性(λ = 0)的情况下消融我们的方法，我们将其表示为无流畅性。我们开始表明，这种方法生成的硬提示在许多基于transformer的语言模型之间迁移时是成功的，同样党被用于在少样本设置中发现提示时也是成功的。这些提示的一个吸引人的质量特点——特别是对于语言的应用——是它们可以在较小的语言模型上进行优化，然后迁移到其他更大的模型上。

5.1 Datasets and Setup

我们在三个分类任务上的相关算法评估算法1，两个情感分析任务 SST-2 (Socher et al., 2013) 和 Amazon Polarity (McAuley & Leskovec, 2013) 和一个 4 路分类任务 AGNEWS (Zhang et al., 2015)。我们基于Ding et al. (2022) 探索的设置，并使用 Adafactor 优化器(Shazeer & Stern, 2018)和32的批大小(Lester et al. 2021a) 使用GPT-2 Large (774M参数) (Radford et al. 2019) 来优化硬提示。我们在表 4 中提供了提示模板和语言器的详细信息。

Transferability Set-up 为了测试可迁移性，我们运行 GPT-2 Large 5000 步来生成提示。然后，我们为每个技术选择平均验证精度最高的五个提示，并在更大的模型上测试它们。我们在：GPT-2 XL、T5-LM-XL、OPT-2.7B 和 OPT-6B (Radford et al., 2019; Lester et al., 2021b; Zhang et al., 2022) 上测试迁移的文本，验证了所提出算法相对于相关技术的可靠性，并测试硬提示是否可以可靠地提高性能。因此，我们还考虑了空提示的基线，也就是只有模板。

Few-Shot Setup 对于少样本设置，我们在 AGNEWS 数据集上针对 GPT-2 Large 优化每个提示 100 个 epoch，我们从 AGNEWS 数据集的每个类中采样两个示例 (k = 2) 和四个示例 (k = 4) 以获得训练集。此外，我们创建了一个相同大小的 holdout 集，并且最后在整个验证集上测试提示。

5.2 Results

我们验证了我们的方法在情感分析设置中与其他方法是可比的，并且在 AGNEWS 上优于其他方法约 2%。有关详细信息，请参见表 5。

Prompt Transferability 表 2 显示了对于每种方法，在 GPT-2 Large 上训练的五个提示迁移到其他 LLM 的效果。有趣的是，简单地缩放模型——没有额外的训练——并不能保证性能会相应扩展。我们看到所有基于梯度的方法都能够迁移，与只有模板的评估相比，还发现我们的使用流畅性约束训练的提示比其他提示能更好地迁移。此外，我们可以看到在 OPT-6.7B 上的最大提升，我们的流畅方法比模板基线增加了约 14% 的准确率。此外，我们看到我们的 AGNEWS 提示能够从 GPT-2 Large 迁移到 GPT-2 XL，详情在附录的表 6 中。

Prompt Discovery 表 3 显示，即使只有几个样本，我们也可以达到高验证精度，与我们的前置对应物相比。值得注意的是，每个few-shot运行大约需要5分钟。

我们运行了 100 个种子，其中训练集包含来自每个类的 k 个样本，并定性地检查了顶部的提示。尽管许多提示是不可解释的，但许多提示也是连贯的。例如，即使对于 k = 2，一些提示包括了像 “BBC” 这样的新闻来源，而其他提示发现了新的方法来执行新闻分类任务，通过考虑来自博客：“Brian blog,” 或 “Blog Revolution analyze.” 的文本。由于这些基于梯度的方法的效率，这些方法可以为提示工程师提供新方法来发现新的提示。

6 Safety Concerns

令牌或词级的内容过滤器通常用于文本到图像扩散模型 APIs，以防止生成NSFW 或版权内容。例如，图像生成 API Midjourney 禁止了包含子字符串“Afghan”的提示，因为著名的 Afghan 女孩照片的版权问题。

然而，即时优化可以用作一个绕过简单的基于规则的内容过滤器的机制。PEZ 可以生成一个避开被禁止标记的提示，但仍然将文本特征与原始目标提示“Afghan girl”匹配。图 7 显示了使用优化提示的 Midjourney 的输出，该提示成功地再现了被禁止的图像，而不包含被禁止的单词“Afghan”。请注意，提示似乎错误地将图像 Sharbat Gula 的主题与 Taliban 相关联。

即使一个防御者现在迭代块列表并从对抗提示中禁止额外的单词，攻击者也可以继续围绕添加的内容限制来进行优化，正如我们在补充材料图10所示。总的来说，我们怀疑只有完整的基于特征的内容检测器有可能减轻模型所有者的这些问题(Rando et al., 2022)。

7 Conclusion

我们提出了一种利用连续嵌入来可靠地优化硬提示的新方法。我们方法的关键优势是在硬提示令牌优化期间使用连续提示，即软提示作为中间变量，这有利用基于梯度的优化。这样，该算法在嵌入空间中选择离散嵌入有用的位置，而不是简单地优化一个软提示然后投影到附近的令牌嵌入上，来希望这些附近的硬提示也将表现良好。此外，由于我们的方法通过将梯度累积到软提示中来利用所有步骤的梯度，该过程使优化对数据中的学习率和潜在噪声更加稳健。

尽管我们的工作在提示优化方面取得了进展，但社区对于语言模型的嵌入空间的理解仍处于起步阶段，一个对嵌入空间的几何形状的更深入的理解可能会在未来实现更强大的提示优化。

总体而言，我们通过我们的实验表明，硬提示可以很容易地生成和灵活地用于实际应用。然而，硬提示的一个限制是，尽管它们是人类可读的，但它们仍然可能包含几个不可解释的标记。此外，硬提示可能从语言模型的训练数据中提取有害的短语或敏感内容。尽管我们没有观察到这种行为的特定实例，但它是一个值得在未来的研究中考虑的问题。