【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC
APE、APO、OPRO
自动优化Prompt:Automatic Prompt Engineering的3种方法
PE2、LongPO、BPO
APE、OPRO、PE2、EVOPROMPT、PromptAgent、LongPrompts
2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptAgent,LongPrompts等方法
IPC
Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化
概括
给定一个训练集,定义好评价指标,运行automatic prompt engineering框架之后,将自动得到能取得最佳效果的prompt。
APE:candidate -> selection -> resample
从候选集中选出好的prompt,再在好的prompt附近进行试探性地搜索。
APO:gradient descent in language space
在文本空间实现gradient descent过程。1)得到当前prompt的“gradient”;2)应用“gradient”,得到new prompt;3)挑选出好的prompt,进入下一轮迭代。
OPRO:LLM as optimizer
让LLM基于过往的迭代记录、优化目标,自己总结规律,逐步迭代prompt。1)使用meta-prompt,让LLM成为Optimizer LLM;2)基于对过往迭代规律的理解,Optimizer LLM生成新的solution;3)在Scorer LLM上应用prompt(即新的solution),评估效果并记录到meta-prompt中,然后继续下一轮迭代;当效果无法再提升、或者到达预先给定的step上限,整个迭代过程停止。
PE2:迭代optimizer LLM
对用来prompt engineer的LLM(即optimizer LLM),进行prompt engineering。核心为优化optimizer LLM的meta-prompt。1)Prompt initialization;2)New prompt proposal;3)Search procedure;
LongPO:针对长prompt的调优方法
sentence挑选机制:在每轮优化时,选择一个sentence进行调优。
BPO:一次训练、反复使用的新方法
训练一个sequence-to-sequence model,输入original prompt,直接输出优化后的prompt。1)收集human preference data;2)用LLM生成优化后的prompt,构成pair data。