【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC

Arachis_X

已于 2024-03-22 23:38:49 修改

阅读量2.6k

点赞数 4

分类专栏： nlp 文章标签： prompt

于 2024-03-19 17:42:14 首次发布

本文链接：https://blog.csdn.net/Arachis_X/article/details/136849943

版权

nlp 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了2023年自动优化提示技术的几种方法，如APE（候选集选择和重采样）、APO（文本空间梯度下降）、OPRO（LLM优化器）、PE2（迭代优化LLM的元提示）、LongPO（长提示调优）和BPO（一次训练多用）。还提到了IPC（意图驱动的提示校准），强调了根据用户意图进行定向优化的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC

概括

给定一个训练集，定义好评价指标，运行automatic prompt engineering框架之后，将自动得到能取得最佳效果的prompt。

APE：candidate -> selection -> resample

从候选集中选出好的prompt，再在好的prompt附近进行试探性地搜索。

APO：gradient descent in language space

在文本空间实现gradient descent过程。1）得到当前prompt的“gradient”；2）应用“gradient”，得到new prompt；3）挑选出好的prompt，进入下一轮迭代。

OPRO：LLM as optimizer

让LLM基于过往的迭代记录、优化目标，自己总结规律，逐步迭代prompt。1）使用meta-prompt，让LLM成为Optimizer LLM；2）基于对过往迭代规律的理解，Optimizer LLM生成新的solution；3）在Scorer LLM上应用prompt（即新的solution），评估效果并记录到meta-prompt中，然后继续下一轮迭代；当效果无法再提升、或者到达预先给定的step上限，整个迭代过程停止。

PE2：迭代optimizer LLM

对用来prompt engineer的LLM（即optimizer LLM），进行prompt engineering。核心为优化optimizer LLM的meta-prompt。1）Prompt initialization；2）New prompt proposal；3）Search procedure；