大模型自动提示优化(APO)综述笔记

自大型语言模型(LLMs)出现以来,提示工程一直是各种自然语言处理(NLP)任务中激发期望响应的关键步骤。然而,由于模型的快速进步、任务的多样性和相关最佳实践的变化,提示工程对最终用户来说仍然是一个障碍。为了缓解这一问题,自动提示优化(APO)技术应运而生,这些技术使用各种自动化方法来提高LLMs在各种任务上的表现
论文名称:A Systematic Survey of Automatic Prompt Optimization Techniques
研究内容:对APO技术的全面综述,总结了该领域的最新进展和剩余挑战。文章提供了一个APO的正式定义和一个五部分的统一框架,并根据其显著特征对所有相关工作进行了严格的分类。
作者:Kiran Ramnath et al. (Amazon Web Services)
统一框架:APO流程分为五部分——种子初始化、推理评估与反馈、候选生成、筛选保留策略、迭代深度

在这里插入图片描述


1. 初始化种子提示(Seed Initialization)

目标:生成初始提示池作为优化起点。
技术细节及论文对比

方法技术描述相关论文
人工指令基于人工编写的示例生成强基线提示,成本较高但可解释性强。ProteGi (Pryzant et al., 2023)、GPS (Xu et al., 2022)、SPRIG (Zhang et al., 2024b)
LLM指令归纳利用LLM从少量示例或任务文档中归纳可读指令,覆盖任务多样性和语义泛化。APE (Zhou et al., 2022)、DAPO (Yang et al., 2024c)、SCULPT (Kumar et al., 2024)、UniPrompt (Juneja et al., 2024)
结构化模板填充将任务拆解为结构化模板(如README、任务类型、输出格式),由LLM填充内容。UniPrompt (Juneja et al., 2024)

技术比较

  • 人工指令依赖领域专家,适用于高精度场景;
  • LLM指令归纳成本低但需平衡示例质量与泛化能力;
  • 结构化模板提升逻辑一致性,但灵活性较低。

2. 推理评估与反馈(Inference Evaluation & Feedback)

目标:评估候选提示性能并生成反馈以指导优化。
技术细节及论文对比

数值评分反馈
方法技术描述相关论文
任务准确率直接使用分类准确率、BLEU-N(文本生成)、BERTScore(语义相似度)等。APE (Zhou et al., 2022)、PACE (Dong et al., 2024b)
奖励模型训练XGBoost或LLM模型预测提示质量,支持多目标优化(如性能+安全性)。OIRL (Sun et al., 2024a)、DRPO (Amini et al., 2024)
熵与NLL利用输出分布的不确定性(需访问概率分布),优化提示的多样性和稳定性。GRIPS (Prasad et al., 2023)、GPS (Xu et al., 2022)
LLM反馈
方法技术描述相关论文
单候选优化通过分层树结构(SCULPT)或Actor-Critic框架(PACE)动态调整提示。SCULPT (Kumar et al., 2024)、PACE (Dong et al., 2024b)
多候选优化生成文本梯度(ProTeGi)或收集错误案例(PromptAgent),提升全局搜索能力。ProTeGi (Pryzant et al., 2023)、PromptAgent (Wang et al., 2024a)
人工反馈
  • 交互式偏好建模:通过对话动态捕获用户偏好(GATE)。
  • 规则注入:结合人工设计的反馈规则优化多步骤任务(PROMST)。
    相关论文:APOHF (Lin et al., 2024)、GATE (Joko et al., 2024)

技术比较

  • 数值评分客观但灵活性差;
  • LLM反馈支持语义级优化,但计算成本高;
  • 人工反馈精度高,适用于关键任务,但难以规模化。

3. 候选提示生成(Candidate Generation)

目标:生成新候选提示以探索优化空间。
技术细节及论文对比

启发式编辑
方法技术描述相关论文
遗传算法通过交叉、变异操作生成新提示(如SPRIG的组件库操作)。SPRIG (Zhang et al., 2024b)、PromptBreeder (Fernando et al., 2023)
词汇修剪保留高频词(CLAPS)或基于互信息选择关键短语(BDPL),降低搜索空间冗余。CLAPS (Zhou et al., 2023)、BDPL (Diao et al., 2022)
程序合成将提示优化转化为模块化程序(如DSPY的文本转换图),支持结构化组合优化。DSPY (Khattab et al., 2024)、SAMMO (Schnabel & Neville, 2024)
神经网络编辑
方法技术描述相关论文
强化学习策略梯度优化(BDPL)或离线奖励模型(OIRL),平衡探索与利用。BPO (Cheng et al., 2024)、OIRL (Sun et al., 2024a)
GAN对抗训练生成器与判别器联合优化,提升提示对抗鲁棒性(Long et al., 2024)。Long et al. (2024)
元提示设计
  • 结构化元指令:定义任务描述、输出格式、推理过程等模板(DAPO)。
  • 动态优化历史:记录历史优化轨迹以指导后续生成(OPRO)。
    相关论文:OPRO (Yang et al., 2024a)、DAPO (Yang et al., 2024c)

技术比较

  • 遗传算法适合离散空间搜索,但依赖初始组件库;
  • 程序合成支持复杂任务分解,但需预定义模块结构;
  • 强化学习适合动态环境,但训练成本高。

4. 筛选与保留策略(Filter & Retain Strategies)

目标:选择高潜力候选进入下一轮优化。
技术细节及论文对比

方法技术描述相关论文
TopK贪婪搜索保留当前最优候选(ProTeGi),计算高效但易陷入局部最优。ProTeGi (Pryzant et al., 2023)
UCB及其变体平衡探索与利用(SPRIG),支持动态评估数据集采样。SPRIG (Zhang et al., 2024b)、PromptAgent (Wang et al., 2024a)
区域联合搜索(RBJS)按聚类优化专家提示(MOP),提升多任务适应性。MOP (Wang et al., 2025)
元启发式集成混合多种搜索算法(如遗传算法+模拟退火),增强鲁棒性(PLUM)。PLUM (Pan et al., 2024)

技术比较

  • TopK简单高效,适合快速收敛;
  • UCB适合动态环境,需调整探索系数;
  • RBJS在多任务场景表现优异,但依赖聚类质量。

5. 迭代深度(Iteration Depth)

目标:控制优化过程的终止条件。
技术细节及论文对比

方法技术描述相关论文
固定步长预设迭代次数(N),适用于计算资源受限场景。多数方法(如ProTeGi、APE)
动态终止基于性能阈值(GRIPS)或收敛检测(PromptAgent),提升效率。GRIPS (Prasad et al., 2023)、PromptAgent (Wang et al., 2024a)

技术比较

  • 固定步长易实现但可能欠拟合或过拟合;
  • 动态终止节省资源,需设计合理的收敛判定条件。

论文种子初始化候选生成筛选策略迭代深度
ProTeGi人工指令LLM改写UCB固定
APELLM归纳N/AUCB固定
DSPY人工+LLM归纳程序合成TopK动态
MOPLLM归纳专家混合RBJS固定

:本笔记基于论文《A Systematic Survey of Automatic Prompt Optimization Techniques》内容提炼,技术对比需结合具体任务需求选择方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI仙人掌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值