大语言模型:Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

研究的动机

  • LLM的效果很好,但是他有时候不能完全理解人们的意图;
  • 因此本文探索一种方式来促进模型理解人们的意图;

研究思路

  • 大模型取得了很好的效果,但是如何削减人类的描述和大模型的理解偏差(gap)成为一个新的研究重点;
  • 虽然前人的研究主要集中在重新训练模型完成这个任务,但是重新训练模型存在效率和开源模型少以及可解释性不足的问题;
  • 因此本文作者提出了BPO( Black-box Prompt Optimization)一种黑盒的prompt优化,作者主要区分了自己的方案的APE(automatic-prompt-engineers),他这里提出的方案在于可以自动完成优化,是一个an automatic prompt optimizer
  • 并且超过了现有的一些方法和基线。

这里对为什么和训练LLM模型本文做对比以及为什么和APE不一样其实是一个隐藏问题

提出的方法

在这里插入图片描述
其实这个方法主要是分为几个步骤:

  • 1.人工的标记数据
  • 2.使用模型批评比较两个回答的差异,然后让模型依据这个差异修改prompt
  • 3.形成原始prompt和优化后的prompt对,训练一个seq2seq的模型

这里就可以明显的看出来作者为什么要和微调模型的基线做对比了,他也是训练了一个seq2seq的模型来增强prompt,也训练了,所以要和训练的基线作对比,以及确实和APE不一样。

最后取得的效果

展示了(demonstrated):

  • 1.BPO可以提升大模型表现,并提升效果超过RLHF、PPO、DPO *
  • 2.BPO可以通过优化回答也能取得效果
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CUHK-SZ-relu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值