大模型能自己优化Prompt了,曾经那么火的提示工程要死了吗?

人类设计 prompt 的效率其实很低,效果也不如 AI 模型自己优化。

2022 年底,ChatGPT 上线,同时引爆了一个新的名词:提示工程(Prompt Engineering)。

简而言之,提示工程就是寻找一种编辑查询(query)的方式,使得大型语言模型(LLM)或 AI 绘画或视频生成器能得到最佳结果或者让用户能绕过这些模型的安保措施。现在的互联网上到处都是提示工程指南、快捷查询表、建议推文,可以帮助用户充分使用 LLM。在商业领域,现在也有不少公司竞相使用 LLM 来构建产品 copilot、自动化繁琐的工作、创造个人助理。

之前在微软工作过的 Austin Henley 最近采访了一些基于 LLM 开发 copilot 产品或服务的人:「每一家企业都想将其用于他们能想象到的每一种用例。」这也是企业会寻求专业提示工程师帮助的原因。

但一些新的研究结果表明,提示工程干得最好的还是模型自己,而非人类工程师。

这不禁让人怀疑提示工程的未来 —— 并且也让人越来越怀疑可能相当多提示工程岗位都只是昙花一现,至少少于当前该领域的想象。

自动微调的提示很成功,也很怪

当面对奇怪的提示工程技术时,LLM 的表现常常很怪异又不可预测。加州的云计算公司 VMware 的 Rick Battle 和 Teja Gollapudi 也为此感到困惑。举个例子,人们发现如果让模型自己一步步地解释自己的推理过程(即思维链技术),其在许多数学和逻辑问题上的性能都能得到提升。更奇怪的是,Battle 发现,如果为模型提供正向的 prompt,比如「这会很有趣」或「你和 ChatGPT 一样聪明」,有时候模型的性能也会提升。

Battle 和 Gollapudi 决定系统性地测试不同的提示工程策略会如何影响 LLM 解决小学数学问题的能力。他们使用 60 种不同的 prompt 组合分别测试了 3 种不同的开源语言模型。

图片

  • 论文标题:The Unreasonable Effectiveness of Eccentric Automatic Prompts
  • 论文地址:https://arxiv.org/pdf/2402.10949.pdf

他们得到的结果呈现出了惊人的不一致性。甚至思维链 prompt 设计方法也不总是好的 —— 有时候有用,有时候却有害。

「唯一的趋势就是没有趋势,」他们写道:「对于任意给定模型、数据集和提示工程策略的某个特定组合而言,最好的方法很可能都非常具有针对性。」

有一种方法可以替代这种常常导致不一致结果的试错风格的提示工程:让语言模型自己设计最优的 prompt。最近,人们已经开发出了一些自动化这一过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值