《Nature Medicine》| DeepSeek连发两篇顶刊：开源DeepSeek挑战专有大语言模型，引领医疗决策新篇章

最新推荐文章于 2025-05-22 08:55:30 发布

Python_金钱豹

最新推荐文章于 2025-05-22 08:55:30 发布

阅读量1.1k

点赞数 8

文章标签：语言模型人工智能自然语言处理计算机视觉深度学习 langchain 神经网络

本文链接：https://blog.csdn.net/Python_cocola/article/details/147551637

版权

导读

在医疗决策领域，大语言模型（LLMs）正引领一场技术革命。然而，以GPT-4o为代表的专有模型因部署限制和数据隐私挑战，难以在医疗机构内广泛应用。最新研究《Benchmark evaluation of DeepSeek large language models in clinical decision-making》发表于**《Nature Medicine》**，为这一难题带来了破局之光。

研究团队通过125个涵盖常见及罕见疾病的标准化病例，对开源DeepSeek模型（DeepSeek-V3和DeepSeek-R1）与顶尖专有模型进行了系统评估。结果显示，DeepSeek模型在诊断和治疗推荐任务中的表现与GPT-4o不分伯仲，甚至在某些情况下更胜一筹。这一发现不仅证明了开源LLMs在临床决策中的巨大潜力，更为医疗机构提供了一条既安全又经济的模型训练与实施路径。

开源LLMs的崛起，意味着医疗机构能够在遵守严格数据隐私和医疗法规的前提下，利用本地数据进行高效模型微调，从而推动真实世界医疗应用的快速发展。未来，随着研究的深入，这些创新成果有望转化为实实在在的患者福祉。

重点信息

开源DeepSeek模型与专有模型性能相当：

在诊断和治疗推荐任务中，开源的DeepSeek-V3和DeepSeek-R1模型的表现与顶尖的专有模型GPT-4o相当，甚至在某些情况下表现更优。这一发现挑战了专有模型在临床决策支持领域的垄断地位，展示了开源LLMs的巨大潜力。

Gem2FTE模型在临床决策中表现不佳：

尽管Gem2FTE模型在一般AI任务中表现优异，但在临床决策支持任务中却显著落后于GPT-4o和DeepSeek模型。研究团队推测，这可能与Gem2FTE模型容量较小有关，强调了模型容量在临床性能中的重要性。

推理模块在临床推理中未显优势：

DeepSeek-R1模型虽然配备了推理模块，但在临床推理任务中并未表现出明显优势。相反，该模型生成了更长的文本输出，增加了响应时间。这一发现提示我们，针对临床领域的特定优化和微调可能是提升模型性能的关键。

一.研究背景与目的

背景：大型语言模型（LLMs）在医学应用中的潜力巨大，但专有模型如GPT-4o因无法部署在医疗机构内部而面临临床采用障碍。

目的：评估开源DeepSeek LLMs（如DeepSeek-V3和DeepSeek-R1）在临床决策支持任务中的性能，与专有LLMs（如GPT-4o和Gemini-2.0 Flash Thinking Experimental）进行比较。

二.研究方法

病例选择：使用125个标准化患者病例，涵盖广泛且包含常见和罕见疾病。

评估任务：诊断和治疗推荐。

评估标准：使用5点Likert量表由医学专家评估模型输出。

三.主要发现

诊断任务：

DeepSeek-R1和GPT-4o显著优于Gem2FTE。
DeepSeek-R1与表现最佳的GPT-4o相当。
所有新模型均优于GPT-4、GPT-3.5和Google搜索。

治疗推荐任务：

GPT-4o和DeepSeek-R1均优于Gem2FTE。
GPT-4o与DeepSeek-R1之间无显著差异。
相比GPT-4和GPT-3.5，GPT-4o和DeepSeek-R1表现更优，但Gem2FTE未表现出优势。

图1：诊断任务中的模型性能比较

(A-D) 气泡图展示了125个成对比较在五点Likert量表上的结果：

(A) GPT-4o与DeepSeek-R1的比较（单侧配对Mann-Whitney检验，带连续性校正，备择假设为大于，Bonferroni校正k=4，校正后p=0.3085，V=378，95%置信区间95%CI=[-3.13∙10^-7;Inf]，估计值=0.25）；

(B) GPT-4o与Gemini-2.0 Flash Thinking Experimental（Gem2FTE）的比较（统计检验参数略，估计值=0.75）；

(D) DeepSeek-R1与DeepSeek-V3的比较（统计检验参数略，估计值=1.97∙10^-5）。

(E) 小提琴图比较了GPT-4o、DeepSeek-R1、DeepSeek-V3和Gem2FTE在我们先前研究中的Likert评分与GPT-4、GPT-3.5和Google的评分（n.s.：不显著；***：p<0.001；显著性水平展示了(A-D)中进行的统计检验结果）。对全部7个模型分析的n=110个病例与新增的n=15个病例的探索性比较显示，性能评分高度一致（单侧非配对Mann-Whitney检验，备择假设为大于；各模型的p值、W值、95%置信区间及估计值略）。

(F) GPT-4o、DeepSeek-R1、DeepSeek-V3、Gem2FTE和GPT-4的Likert评分累积频率图。

图2：治疗推荐任务中的模型性能比较

(A-C) 气泡图展示了125个成对比较在五点Likert量表上的结果：

(A) GPT-4o与DeepSeek-R1的比较（单侧配对Mann-Whitney检验，带连续性校正，备择假设为大于，Bonferroni校正k=3，校正后p=0.1522，V=771.5，95%置信区间95%CI=[-6.88∙10^-5;Inf]，估计值=0.25）；

(B) GPT-4o与Gemini-2.0 Flash Thinking Exp（Gem2FTE）的比较（统计检验参数略，校正后p=0.0016，估计值=0.5）；

(D) 小提琴图比较了GPT-4o、DeepSeek-R1和Gem2FTE的Likert评分与GPT-4和GPT-3.5的评分（n.s.：不显著；*：p<0.05；显著性水平展示了(A-C)中进行的统计检验结果）。对全部7个模型分析的n=110个病例与新增的n=15个病例的探索性比较显示，性能评分高度一致（单侧非配对Mann-Whitney检验，备择假设为大于；各模型的p值、W值、95%置信区间及估计值略）。

(E) GPT-4o、DeepSeek-R1、Gem2FTE和GPT-4的Likert评分累积频率图。

四.讨论与结论

开源LLMs的潜力：DeepSeek-V3和DeepSeek-R1在临床决策任务中的表现与GPT-4o相当，表明开源LLMs可作为复杂任务（如诊断和治疗推荐）的有价值辅助工具。

模型容量与性能：推测Gem2FTE性能较差可能由于其模型容量较小。

推理模块的优势：DeepSeek-R1的推理模块在临床推理中未显示出明显优势，反而生成了更长的文本输出，增加了响应时间。

未来研究方向：基于个体医疗机构内的专有临床病例报告对推理模型进行微调，可能会显著改善诊断和治疗推荐。

五.数据与代码可用性

数据：所有数据和评分均提供在补充数据S1中。

代码：用于重现主要数据分析的代码提供在补充数据S2、S3和S4中，以及GitHub仓库https://github.com/sandmanns/llm_evaluation。

六.研究意义

数据隐私与合规性：开源LLMs为医疗机构提供了符合数据隐私和监管要求的、成本效益高的模型训练和实施途径。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述