论文地址:https://arxiv.org/pdf/2311.16452v1.pdf
OpenAI 2023.11发布
摘要:本文通过设计MedPrompt提示策略,GPT4在医学垂直领域表现已超越Med-PaLM2等医学专家大模型
1 INTRODUCTION(略)
2 BACK GROUND(略)
2.1 Foundation Models on Medical Challenge Problems
2.2 Prompting Strategies
3 Experimental Design(略)
3.1 Datasets(MedQA 【14】、MedMCQA 【25】、PubMedQA 【15】、MMLU 【11】)
3.2 Sound Testing Methodology
4 Power of Prompting-结合3种策略的提示MedPrompt
4.1动态少示例(本文采用5个<问题,答案>对示例)
目前提示方法中,大部分示例都需要专家精心设计,因此本文提出动态少示例:
Step1:将训练问题和测试问题向量化表示(用text-embedding-ada-002)
Step2:对每个测试问题,从训练集中检索其k个近邻
Step3:按相似度度量(如余弦相似性)对k个近邻排序
4.2思维链(let's think step by step)
大多数思维链的方法基本都是通过专家手动编写生成示例【《Towards expert-level medical question answering with large language models》】。与此不同,本文通过以下模板让GPT4自身生成思维链示例。
GPT4自生成的CoT推理可能包含幻觉或不正确推理链,因此通过标签验证对样本将进行过滤:如果GPT4生成的答案与基础真理标签不匹配,就完全抛弃这个样本。虽然幻觉或不正确的推理仍然可以产生正确的最终答案(即假阳性),但我们发现这个简单的标签验证步骤可以有效地过滤假阴性。相比Med-PaLM 2[30]中使用的CoT示例相比,GPT-4生成的CoT基本原理更长,并提供更细粒度的逐步推理逻辑。研究[35,7]也发现基础模型比专家写的提示更好。
4.3洗牌聚合(缓解位置偏见)
考虑到GPT4等大模型的位置偏见问题,对问题选项进行顺序打乱,检验不同顺序下模型答案的自一致性【32】,而后选择对洗牌最不敏感(最一致)的答案
提示方法算法设计:
输入:已有的问题数据集D和要测试的问题Q
预处理:对D中每个问题q进行向量化;用大模型生成问题q相应的思维链和答案;答案正确则存储:<问题向量V;思维链C;答案A>对
推理阶段:对所测试问题Q进行向量化得到V(Q);用向量相似度计算方法,找到与测试问题向量V(Q)接近的5个近邻问题(<问题向量;思维链;答案>形式);将以上5个问题示例进行结构化,化成问题Q的上下文Context(将Context以及测试问题的COT和备选答案 作为问题的提示)
重复5次:交换测试问题选项的顺序并用大模型生成问题的思维链和答案结合Context作为提示进行提问
(聚合):用多数投票法计算得出最后的答案A(final)(出现次数最多的答案即为最后答案);
输出:最终计算所得的答案A(final)
实验结果:
few-shot示例、自生成思维链推理和洗牌多数投票集合相结合的一般范式可以广泛应用(简而言之,这3种方法可以叠buff)
5 结果
“选择最佳”指的是Med-Palm研究中使用的一个过程,即执行几种不同的方法,并在尝试的各种实验方法中为每个数据集选择表现最佳的策略。
5.1 过拟合实验
5.2 消融实验
引入思维链步骤对性能的贡献最大(+3.4%),其次是少量提示和选择组合(各+2.2%)。
5.3 泛化能力
阐述本研究并非仅适用于MultiMedQA基准数据集的“定制版”,在MMLU基准套件中的另外六个不同数据集上进一步测试了最终的Medprompt方法,如下图所示
6 限制的挑战
① 过拟合问题
② 封闭问题集没有反映医疗保健专业人员在实际实践中面临的医疗任务的范围和复杂性,未证明MedPrompt策略在非多项选择题的适应性
③ 幻觉问题
④ 偏见问题:在模型优化、微调和即时工程的背景下,偏见和公平性的挑战仍然是相关的和紧迫的[13,20,38]。
7 总结
构建了MedPrompt,使得GPT4能力超过微调模型Med-PaLM 2,在MedQA上的专业技能首次超过90%。
GPT-4可以编写定制的思维链提示集,其性能优于专家编写的家提示。
通过消融研究了解Medprompt策略中不同组成部分的贡献,这些研究证明了每个组成部分的相对重要性。
为了避免过拟合,将视线偏离的评估案例库放在一边,并发现Medprompt的强结果不是由于过拟合。
通过对Medprompt在医学以外的六个领域(包括电气工程、机器学习、哲学、会计、法律、护理和临床心理学)的一系列能力评估中的表现进行研究,探索了该提示策略的普适性。
微调参数更新依旧是大模型的可行研究方向,并可能与提示工程提供协同效益。
笔者总结:
(1)Flan-PaLM 540B* Med-PaLM 2* 实验数据直接摘自原文,并非和GPT4一起复现,且只公布了GPT4 5-shot和MedPrompt的数据,GPT4 5-shot本就优于Flan-PaLM 540B* Med-PaLM 2*。
(2)本文实验只针对封闭集问题(选择题),在开放文本生成任务中集成层可能无法依赖直接多数投票,而是可以通过选择与嵌入空间中所有其他答案最接近的答案进行聚合。也可以考虑将K个生成的文本片段以结构化格式连接起来,并要求模型选择最可能的选项,采用集成细化的风格。