GPT4 在医学任务表现-Capabilities of GPT-4 on Medical Challenge Problems

本文探讨了GPT-4在医学领域的表现,通过USMLE等数据集评估其在选择题上的准确率。研究涉及zero-shot和few-shot情况,以及图像和文本的处理。文章还讨论了Prompt策略的影响,如对比CoT和精心挑选的实例,并介绍了使用MELD检测模型记忆数据泄露的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

微软和openai在2023年4月的论文。

Capabilities of GPT-4 on Medical Challenge Problems

数据集介绍

USMLE Self Assessments:问题,有表格

USMLE Sample Exam:pdf,有图片

MedQA:多语种多选,

PubMedQA:判断题

MedMCQA:多选

MMLU:多选

评测方法

由于是评价选择题做得对不对,所以直接用准确率来衡量,即算做对了多少题。

对于需要给出原因的数据集,并没有在文中看到如何衡量gpt在这方面的表现

评测类型

1. 是zero-shot还是few-shot

2. 问题中提及了图像或图表,还是纯文本

3. 不同模型(GPT4-base、GPT-RLHF;GPT3.5、ChatGPT、Flan-PaLM 540B)在不同数据集上的表现

方向和局限

我觉得这部分写的很有意思,

1. Prompt策略

文章还尝试在prompt上做了实验,一是CoT,二是few-shot example是精心挑选的还是随机选的。对于前者,没有看到文章做什么实验,引用了别人的结果,说CoT不一定能很好的提高模型表现,还需要好好设计;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值