By Eric Horvitz(埃里克·霍尔维茨),首席科学官
Brain 翻译
今天,我们发表了一篇关于探索提示策略力的文章,展示了通用GPT-4模型如何在医疗挑战问题基准上发挥专家作用。该研究表明,在相同的基准上,GPT-4的性能明显优于专门针对医疗应用进行微调的领先模型。最近的其他研究也表明,仅靠提示策略就能有效地从通用基础模型中唤起特定领域的专业知识。
图1:Medprompt 各组成部分及对MedQA基准性能贡献的可视化说明。提示策略结合了基于kNN的少量示例选择、GPT-4生成的思维链提示和答案选择的随机集成。
在对GPT-4的能力进行早期评估时,我们欣喜地发现,GPT-4具备通用的解决问题能力,在抽象、概括和组合方面具有令人惊讶的多学科抽象能力,包括将跨学科的概念编织起来的能力。除了这些一般推理能力之外,我们还发现,GPT-4可以通过提示引导,成为众多领域的特定专家。在此之前,要激发这些能力,需要使用专门设计的数据对语言模型进行微调,以便在特定领域获得最佳性能。这提出了一个问题:对通用基础模型进行更广泛的训练可否减少微调需求。
在三月分享的一项研究中,我们展示了非常简单的提示策略如何揭示GPT-4在医学知识方面的优势,而无需进行特殊的微调。结果表明,“开箱即用”的模型如何通过基本的提示来应对一系列医学挑战问题。在我们最近的研究中,我们展示了如何将多种提示策略组合成一种我们称之为“Medprompt”的方法,从而有效地引导GPT-4达到最佳性能。特别是,我们发现使用Medprompt的 GPT-4:
在MedQA数据集上的得分率首次超过90%
在MultiMedQA套件的所有九个基准数据集上都取得了最高的报告结果
与MedPaLM 2相比,MedQA的错误率降低了27%