【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC

本文介绍了2023年自动优化提示技术的几种方法,如APE(候选集选择和重采样)、APO(文本空间梯度下降)、OPRO(LLM优化器)、PE2(迭代优化LLM的元提示)、LongPO(长提示调优)和BPO(一次训练多用)。还提到了IPC(意图驱动的提示校准),强调了根据用户意图进行定向优化的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC

APE、APO、OPRO

自动优化Prompt:Automatic Prompt Engineering的3种方法

PE2、LongPO、BPO

自动优化Prompt(2):PE2、LongPO以及BPO

APE、OPRO、PE2、EVOPROMPT、PromptAgent、LongPrompts

2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptAgent,LongPrompts等方法

IPC

Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化

概括

给定一个训练集,定义好评价指标,运行automatic prompt engineering框架之后,将自动得到能取得最佳效果的prompt。

APE:candidate -> selection -> resample

从候选集中选出好的prompt,再在好的prompt附近进行试探性地搜索。

APO:gradient descent in language space

在文本空间实现gradient descent过程。1)得到当前prompt的“gradient”;2)应用“gradient”,得到new prompt;3)挑选出好的prompt,进入下一轮迭代。

OPRO:LLM as optimizer

让LLM基于过往的迭代记录、优化目标,自己总结规律,逐步迭代prompt。1)使用meta-prompt,让LLM成为Optimizer LLM;2)基于对过往迭代规律的理解,Optimizer LLM生成新的solution;3)在Scorer LLM上应用prompt(即新的solution),评估效果并记录到meta-prompt中,然后继续下一轮迭代;当效果无法再提升、或者到达预先给定的step上限,整个迭代过程停止。

PE2:迭代optimizer LLM

对用来prompt engineer的LLM(即optimizer LLM),进行prompt engineering。核心为优化optimizer LLM的meta-prompt。1)Prompt initialization;2)New prompt proposal;3)Search procedure;

LongPO:针对长prompt的调优方法

sentence挑选机制:在每轮优化时,选择一个sentence进行调优。

BPO:一次训练、反复使用的新方法

训练一个sequence-to-sequence model,输入original prompt,直接输出优化后的prompt。1)收集human preference data;2)用LLM生成优化后的prompt,构成pair data。

IPC:Intent-based Prompt Calibration:合成边界数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值