微软首席科学官最新发布:提示工程的力量-The Power of Prompting

微软首席科学官分享了关于GPT-4模型的研究,表明通用模型通过提示策略可以在医疗挑战问题上表现出专家水平,无需特殊微调。Medprompt方法的提出,使GPT-4在多个医疗基准上达到高性能,甚至超越了专门微调的模型。
摘要由CSDN通过智能技术生成

By Eric Horvitz(埃里克·霍尔维茨),首席科学官

Brain 翻译

03a5b30198b565c3ad34e6812586bec7.jpeg

今天,我们发表了一篇关于探索提示策略力的文章,展示了通用GPT-4模型如何在医疗挑战问题基准上发挥专家作用。该研究表明,在相同的基准上,GPT-4的性能明显优于专门针对医疗应用进行微调的领先模型。最近的其他研究也表明,仅靠提示策略就能有效地从通用基础模型中唤起特定领域的专业知识。 

02a5815d33cc56f9c248822452b59c16.png

图1:Medprompt 各组成部分及对MedQA基准性能贡献的可视化说明。提示策略结合了基于kNN的少量示例选择、GPT-4生成的思维链提示和答案选择的随机集成。

在对GPT-4的能力进行早期评估时,我们欣喜地发现,GPT-4具备通用的解决问题能力,在抽象、概括和组合方面具有令人惊讶的多学科抽象能力,包括将跨学科的概念编织起来的能力。除了这些一般推理能力之外,我们还发现,GPT-4可以通过提示引导,成为众多领域的特定专家。在此之前,要激发这些能力,需要使用专门设计的数据对语言模型进行微调,以便在特定领域获得最佳性能。这提出了一个问题:对通用基础模型进行更广泛的训练可否减少微调需求。

在三月分享的一项研究中,我们展示了非常简单的提示策略如何揭示GPT-4在医学知识方面的优势,而无需进行特殊的微调。结果表明,“开箱即用”的模型如何通过基本的提示来应对一系列医学挑战问题。在我们最近的研究中,我们展示了如何将多种提示策略组合成一种我们称之为“Medprompt”的方法,从而有效地引导GPT-4达到最佳性能。特别是,我们发现使用Medprompt的 GPT-4:

  • 在MedQA数据集上的得分率首次超过90%

  • 在MultiMedQA套件的所有九个基准数据集上都取得了最高的报告结果

  • 与MedPaLM 2相比,MedQA的错误率降低了27%

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叶锦鲤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值