通用基础模型+提示词是否能胜过微调模型？医学案例研究

最新推荐文章于 2024-11-12 17:32:02 发布

会写代码的孙悟空

最新推荐文章于 2024-11-12 17:32:02 发布

阅读量286

点赞数

分类专栏： chatGPT 文章标签： chatgpt 提示词医学问答

本文链接：https://blog.csdn.net/artistkeepmonkey/article/details/134891325

版权

chatGPT 专栏收录该内容

33 篇文章 103 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

研究发现，通过提示工程，尤其是Medprompt策略，通用基础模型GPT-4在医学问答任务上超越了专业微调模型。Medprompt结合动态少数样本选择、自动生成的思维链和选择洗牌集成，使得GPT-4在多个医学数据集上取得最先进的结果，甚至在MedQA数据集上实现了90%以上的准确性，无需专业领域知识的微调。

摘要由CSDN通过智能技术生成

论文链接在末尾

摘要

通用基础模型，如GPT-4，在各种领域和任务中展现出令人惊讶的能力。然而，普遍存在这样一种假设，即它们在没有专业知识深度训练的情况下无法达到专业能力。例如，迄今为止对医学竞赛基准的大多数探索都利用了领域特定的训练，正如在BioGPT和Med-PaLM等项目上所示。我们基于先前对GPT-4在医学挑战基准上的专业能力的研究，而无需特殊培训。

与故意使用简单提示突显模型开箱即用的能力不同，我们进行了对提示工程的系统探索以提高性能。我们发现，提示创新可以释放更深层次的专业能力，并表明GPT-4轻松超越了先前在医学问答数据集上的领先结果。我们探索的提示工程方法是通用的，不特定使用领域专业知识，消除了对专业策划内容的需求。我们的实验设计在提示工程过程中仔细控制了过拟合。

作为研究的总结，我们推出了Medprompt，基于若干提示策略的组合。Medprompt极大地增强了GPT-4的性能，并在MultiMedQA套件的所有九个基准数据集上取得了最先进的结果。该方法在调用模型的数量上远远优于Med-PaLM 2等最先进的专业模型。使用Medprompt引导GPT-4在MedQA数据集（USMLE考试）上实现了27%的错误率降低，超过了迄今为止使用专业模型实现的最佳方法，并首次达到了90%的得分。超越医学挑战问题，我们展示了Medprompt在泛化到其他领域方面的能力，并通过对电