导读
在医疗决策领域,大语言模型(LLMs)正引领一场技术革命。然而,以GPT-4o为代表的专有模型因部署限制和数据隐私挑战,难以在医疗机构内广泛应用。最新研究《Benchmark evaluation of DeepSeek large language models in clinical decision-making》发表于**《Nature Medicine》**,为这一难题带来了破局之光。
研究团队通过125个涵盖常见及罕见疾病的标准化病例,对开源DeepSeek模型(DeepSeek-V3和DeepSeek-R1)与顶尖专有模型进行了系统评估。结果显示,DeepSeek模型在诊断和治疗推荐任务中的表现与GPT-4o不分伯仲,甚至在某些情况下更胜一筹。这一发现不仅证明了开源LLMs在临床决策中的巨大潜力,更为医疗机构提供了一条既安全又经济的模型训练与实施路径。
开源LLMs的崛起,意味着医疗机构能够在遵守严格数据隐私和医疗法规的前提下,利用本地数据进行高效模型微调,从而推动真实世界医疗应用的快速发展。未来,随着研究的深入,这些创新成果有望转化为实实在在的患者福祉。
重点信息
开源DeepSeek模型与专有模型性能相当:
在诊断和治疗推荐任务中,开源的DeepSeek-V3和DeepSeek-R1模型的表现与顶尖的专有模型GPT-4o相当,甚至在某些情况下表现更优。这一发现挑战了专有模型在临床决策支持领域的垄断地位,展示了开源LLMs的巨大潜力。
Gem2FTE模型在临床决策中表现不佳:
尽管Gem2FTE模型在一般AI任务中表现优异,但在临床决策支持任务中却显著落后于GPT-4o和DeepSeek模型。研究团队推测,这可能与Gem2FTE模型容量较小有关,强调了模型容量在临床性能中的重要性。
推理模块在临床推理中未显优势:
DeepSeek-R1模型虽然配备了推理模块,但在临床推理任务中并未表现出明显优势。相反,该模型生成了更长的文本输出,增加了响应时间。这一发现提示我们,针对临床领域的特定优化和微调可能是提升模型性能的关键。
一.研究背景与目的
背景:大型语言模型(LLMs)在医学应用中的潜力巨大,但专有模型如GPT-4o因无法部署在医疗机构内部而面临临床采用障碍。
目的:评估开源DeepSeek LLMs(如DeepSeek-V3和DeepSeek-R1)在临床决策支持任务中的性能,与专有LLMs(如GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行比较。
二.研究方法
病例选择:使用125个标准化患者病例,涵盖广泛且包含常见和罕见疾病。
评估任务:诊断和治疗推荐。
评估标准:使用5点Likert量表由医学专家评估模型输出。
三.主要发现
诊断任务:
- DeepSeek-R1和GPT-4o显著优于Gem2FTE。
- DeepSeek-R1与表现最佳的GPT-4o相当。
- 所有新模型均优于GPT-4、GPT-3.5和Google搜索。
治疗推荐任务:
- GPT-4o和DeepSeek-R1均优于Gem2FTE。
- GPT-4o与DeepSeek-R1之间无显著差异。
- 相比GPT-4和GPT-3.5,GPT-4o和DeepSeek-R1表现更优,但Gem2FTE未表现出优势。
图1:诊断任务中的模型性能比较
(A-D) 气泡图展示了125个成对比较在五点Likert量表上的结果:
(A) GPT-4o与DeepSeek-R1的比较(单侧配对Mann-Whitney检验,带连续性校正,备择假设为大于,Bonferroni校正k=4,校正后p=0.3085,V=378,95%置信区间95%CI=[-3.13∙10^-7;Inf],估计值=0.25);
(B) GPT-4o与Gemini-2.0 Flash Thinking Experimental(Gem2FTE)的比较(统计检验参数略,估计值=0.75);
© DeepSeek-R1与Gem2FTE的比较(统计检验参数略,估计值=0.5);
(D) DeepSeek-R1与DeepSeek-V3的比较(统计检验参数略,估计值=1.97∙10^-5)。
(E) 小提琴图比较了GPT-4o、DeepSeek-R1、DeepSeek-V3和Gem2FTE在我们先前研究中的Likert评分与GPT-4、GPT-3.5和Google的评分(n.s.:不显著;***:p<0.001;显著性水平展示了(A-D)中进行的统计检验结果)。对全部7个模型分析的n=110个病例与新增的n=15个病例的探索性比较显示,性能评分高度一致(单侧非配对Mann-Whitney检验,备择假设为大于;各模型的p值、W值、95%置信区间及估计值略)。
(F) GPT-4o、DeepSeek-R1、DeepSeek-V3、Gem2FTE和GPT-4的Likert评分累积频率图。
图2:治疗推荐任务中的模型性能比较
(A-C) 气泡图展示了125个成对比较在五点Likert量表上的结果:
(A) GPT-4o与DeepSeek-R1的比较(单侧配对Mann-Whitney检验,带连续性校正,备择假设为大于,Bonferroni校正k=3,校正后p=0.1522,V=771.5,95%置信区间95%CI=[-6.88∙10^-5;Inf],估计值=0.25);
(B) GPT-4o与Gemini-2.0 Flash Thinking Exp(Gem2FTE)的比较(统计检验参数略,校正后p=0.0016,估计值=0.5);
© DeepSeek-R1与Gem2FTE的比较(统计检验参数略,校正后p=0.0235,估计值=0.5)。
(D) 小提琴图比较了GPT-4o、DeepSeek-R1和Gem2FTE的Likert评分与GPT-4和GPT-3.5的评分(n.s.:不显著;*:p<0.05;显著性水平展示了(A-C)中进行的统计检验结果)。对全部7个模型分析的n=110个病例与新增的n=15个病例的探索性比较显示,性能评分高度一致(单侧非配对Mann-Whitney检验,备择假设为大于;各模型的p值、W值、95%置信区间及估计值略)。
(E) GPT-4o、DeepSeek-R1、Gem2FTE和GPT-4的Likert评分累积频率图。
四.讨论与结论
开源LLMs的潜力:DeepSeek-V3和DeepSeek-R1在临床决策任务中的表现与GPT-4o相当,表明开源LLMs可作为复杂任务(如诊断和治疗推荐)的有价值辅助工具。
模型容量与性能:推测Gem2FTE性能较差可能由于其模型容量较小。
推理模块的优势:DeepSeek-R1的推理模块在临床推理中未显示出明显优势,反而生成了更长的文本输出,增加了响应时间。
未来研究方向:基于个体医疗机构内的专有临床病例报告对推理模型进行微调,可能会显著改善诊断和治疗推荐。
五.数据与代码可用性
数据:所有数据和评分均提供在补充数据S1中。
代码:用于重现主要数据分析的代码提供在补充数据S2、S3和S4中,以及GitHub仓库https://github.com/sandmanns/llm_evaluation。
六.研究意义
数据隐私与合规性:开源LLMs为医疗机构提供了符合数据隐私和监管要求的、成本效益高的模型训练和实施途径。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。