微软和openai在2023年4月的论文。
Capabilities of GPT-4 on Medical Challenge Problems
数据集介绍
USMLE Self Assessments:问题,有表格
USMLE Sample Exam:pdf,有图片
MedQA:多语种多选,
PubMedQA:判断题
MedMCQA:多选
MMLU:多选
评测方法
由于是评价选择题做得对不对,所以直接用准确率来衡量,即算做对了多少题。
对于需要给出原因的数据集,并没有在文中看到如何衡量gpt在这方面的表现
评测类型
1. 是zero-shot还是few-shot
2. 问题中提及了图像或图表,还是纯文本
3. 不同模型(GPT4-base、GPT-RLHF;GPT3.5、ChatGPT、Flan-PaLM 540B)在不同数据集上的表现
方向和局限
我觉得这部分写的很有意思,
1. Prompt策略
文章还尝试在prompt上做了实验,一是CoT,二是few-shot example是精心挑选的还是随机选的。对于前者,没有看到文章做什么实验,引用了别人的结果,说CoT不一定能很好的提高模型表现,还需要好好设计;