通用基础模型+提示词是否能胜过微调模型?医学案例研究

研究发现,通过提示工程,尤其是Medprompt策略,通用基础模型GPT-4在医学问答任务上超越了专业微调模型。Medprompt结合动态少数样本选择、自动生成的思维链和选择洗牌集成,使得GPT-4在多个医学数据集上取得最先进的结果,甚至在MedQA数据集上实现了90%以上的准确性,无需专业领域知识的微调。
摘要由CSDN通过智能技术生成

论文链接在末尾

摘要

通用基础模型,如GPT-4,在各种领域和任务中展现出令人惊讶的能力。然而,普遍存在这样一种假设,即它们在没有专业知识深度训练的情况下无法达到专业能力。例如,迄今为止对医学竞赛基准的大多数探索都利用了领域特定的训练,正如在BioGPT和Med-PaLM等项目上所示。我们基于先前对GPT-4在医学挑战基准上的专业能力的研究,而无需特殊培训。

与故意使用简单提示突显模型开箱即用的能力不同,我们进行了对提示工程的系统探索以提高性能。我们发现,提示创新可以释放更深层次的专业能力,并表明GPT-4轻松超越了先前在医学问答数据集上的领先结果。我们探索的提示工程方法是通用的,不特定使用领域专业知识,消除了对专业策划内容的需求。我们的实验设计在提示工程过程中仔细控制了过拟合。

作为研究的总结,我们推出了Medprompt,基于若干提示策略的组合。Medprompt极大地增强了GPT-4的性能,并在MultiMedQA套件的所有九个基准数据集上取得了最先进的结果。该方法在调用模型的数量上远远优于Med-PaLM 2等最先进的专业模型。使用Medprompt引导GPT-4在MedQA数据集(USMLE考试)上实现了27%的错误率降低,超过了迄今为止使用专业模型实现的最佳方法,并首次达到了90%的得分。超越医学挑战问题,我们展示了Medprompt在泛化到其他领域方面的能力,并通过对电

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会写代码的孙悟空

赠人玫瑰 手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值