Automatic Prompt Optimization with “Gradient Descent” and Beam Search

最新推荐文章于 2025-02-27 00:15:00 发布

ShadyPi

最新推荐文章于 2025-02-27 00:15:00 发布

阅读量2.1k

点赞数 3

分类专栏：自然语言处理文章标签：自然语言处理语言模型

本文链接：https://blog.csdn.net/ShadyPi/article/details/130995160

版权

自然语言处理专栏收录该内容

29 篇文章

订阅专栏

在“自然语言域”使用类似梯度下降的方法优化prompt

整篇文章比较精髓的思想在于

利用LLM本身去寻找prompt的瑕疵。将语言模型的输出 $\hat{y}$ 与正确答案（label） $y$ 还有prompt $p$ 一起送入LLM，并通过类似“What is wrong with $p$ ? ”这样的问题让LLM自己找出prompt的问题所在，并将这次输出当作prompt在“自然语言域”的“梯度” $g$ 。
根据梯度 $g$ 让LLM自己对prompt做调整。把 $p, g$ 一起输入给LLM，并通过类似 “Use $g$ to fix $p$ ”的指令让LLM生成新的prompt。原文在此基础之上，还使用LLM多次paraphrase新的prompt从而“拓宽蒙特卡洛搜索空间”。
结合Beam search和Bandit selection在生成的新prompt里寻找最优解。每次做完前面所述的1.2.两步以后，就会产生许多候选prompt，文章使用beam search的方式，每次用bandit selection找到比较好的几个prompt，在此基础之上继续迭代，若干次后挑选其中最好的prompt。

Beam search过程

在这里插入图片描述
$B_i$ 为每个beam search步产生的prompt候选集， $C$ 是储存候选集的临时变量。（PS：这里的 $i$ 是不是该从0开始来着）

在每个搜索步中，先对当前步的候选集 $B_i$ 中的每个prompt做一次Expand操作，扩充候选集。Expand过后用Select算法进行筛选，找到最好的 $b$ 个保留到下一步的候选集里。最后从 $B_r$ 挑出最好的prompt。

Expand

在这里插入图片描述
第一步，从整个训练集 $\mathcal{D_{tr}}$ 中抽出一个小样本集合 $\mathcal{D_{mini}}$ ，。
第二步， $\mathcal{D_{mini}}$ 进行测试，把出错的样本收集起来，称为有错的样例集合 $e$ 。
第三步，将 $p, e$ 一起送入LLM让LLM挑错，得到 $g$ 。
第四步，将 $p, g, e$ 送入LLM让LLM优化 $p$ ，得到 $p^{'}$ 。
第五步，paraphase $p^{'}$ ，得到 $p^{''}$ 。
第六步， $p^{'}, p^{''}$ 一起送回去。

Select

本文把选择看作了一个“多臂老虎机”问题，可以参考这篇文章。简单说来，每个生成的新prompt就像老虎机的摇臂，可能会带来收益，但收益的分布是不确定的。多臂老虎机问题就是通过最少次“拉臂”操作找到带来收益最高的摇臂。放到这个prompt optimization问题里，拉臂操作就是以新的prompt作为输入做一次实验看效果，要做到用最少的实验找到最好的prompt。

本文描述了两种多臂老虎机问题的算法，UCB和Successive Rejects
在这里插入图片描述
均值越大，标准差越小，被选中的概率会越来越大。

简单理解就是打淘汰赛。

实验

在4个数据集上做了实验，都是偏向网络安全类的，而且都是分类问题。
Jailbreak：用户尝试绕过LLM的一些安全限制
Ethos：辨别英语仇恨言论
Liar：辨别英语fake news
Sarcasm：辨别阿拉伯语讽刺言论
在这里插入图片描述
看上去是吊打Monte-Carlo (MC)，Reinforcement Learning (RL)和AutoGPT。