医学大模型基准测试应优先考虑构念效度-CSDN博客

本文链接：https://blog.csdn.net/m0_65555479/article/details/147618874

摘要

医学大型语言模型（LLMs）研究宣称能从编码临床知识到像医生一样进行推理。这些宣称通常由竞争性基准测试支持——这是从主流机器学习继承的传统。但我们如何区分真正的进步和排行榜上的灵活表现呢？医学LLM基准测试，与其他领域的类似测试一样，是使用医学执照考试问题任意构建的。为了真正衡量进展，这些基准必须准确捕捉它们旨在代表的实际任务。

在这篇立场论文中，我们认为医学LLM基准测试应该——而且确实可以——针对其构念效度进行实证评估。在心理测试文献中，“构念效度”指的是测试测量一个潜在的“构念”的能力，即评估的实际概念目标。通过类比LLM基准测试和心理测试，我们解释了该领域的框架如何提供验证基准的经验基础。为了将这些想法付诸实践，我们在概念验证实验中使用真实世界的临床数据来评估流行医学LLM基准，并报告了它们在构念效度上的显著差距。最后，我们概述了一个以创建有效基准为核心的医学大型语言模型（LLM）评估新生态系统的愿景。

核心速览

研究背景

研究问题
：这篇文章探讨了如何评估医疗大型语言模型（LLMs）的基准测试的有效性，特别是其构建有效性。医疗LLMs的研究常常声称其能够编码临床知识或像医生一样进行推理，但这些声明通常依赖于竞争性基准测试。然而，如何区分真正的进步和排行榜上的虚高成绩呢？
研究难点
：医疗LLMs基准测试的构建往往随意，使用医学执照考试问题。为了真正衡量进展，这些基准测试必须准确捕捉它们旨在代表的实际任务。现有的基准测试缺乏对现实世界临床实践的忠实度，导致其构建有效性不足。
相关工作
：现有的医疗LLMs研究大多依赖于定制的一次性评估数据集，尚未达成共识基准测试。此外，心理测试文献中的构建有效性概念可以应用于评估医疗LLMs基准测试。

研究方法

这篇论文提出了一种基于心理测试框架的定量评估方法，用于验证医疗LLMs基准测试的构建有效性。具体来说，

基准测试与心理测试的类比：首先，论文将LLM基准测试与心理测试进行类比，解释了心理测试中的五个关键组成部分：测试对象、潜在构建、测试工具、测试分数和对测试结果的推断。LLM基准测试中的不同LLMs作为测试对象，其能力作为潜在构建，评估基准测试作为测试工具，性能指标作为测试分数，研究人员对模型能力的声明作为基于测试分数的推断。
经典视角下的有效性理论：论文介绍了经典视角下的有效性理论，包括三种类型的有效性：标准有效性、内容有效性和构建有效性。以贝克抑郁量表（BDI）为例，说明了每种有效性的评估方法。
现代视角下的有效性理论：论文讨论了现代视角下的“所有有效性都是构建有效性”的观点，强调了验证过程是关于测试分数的解释和应用，而不是测试本身。
实证验证方法：论文提出了使用电子健康记录（EHR）数据进行实证验证的方法。具体步骤包括：

标准有效性
：将LLM在基准测试中的准确性预测其在真实世界临床决策中的表现。通过匹配MedQA问题与现实世界患者病例，评估LLM的诊断准确性。
内容有效性
：使用统一医学语言系统（UMLS）定义医学知识的“内容域”，并通过比较MedQA问题和真实世界临床笔记中的UMLS概念覆盖率来评估其内容有效性。
构建有效性
：通过比较LLM在基准测试和真实世界临床任务中的排名来评估其构建有效性。

实验设计

数据收集
：使用来自大型学术医疗中心的EHR数据，匹配MedQA问题与现实世界患者病例。具体来说，每个MedQA问题都与10个患者病例匹配，病例中的药物或诊断信息用于评估LLM的准确性。
样本选择
：选择了最先进的LLMs（如GPT-4和Llama 3.0）以及医疗LLM排行榜上的领先模型（如Chimera Llama、Biomerge等）。
参数配置
：在标准有效性实验中，过滤MedQA以保留LLM正确回答的问题，并在匹配的真实世界病例中评估其准确性。在内容有效性实验中，使用cTAKES NLP系统提取UMLS概念，并比较MedQA问题和真实世界临床笔记中的概念覆盖率。

结果与分析

标准有效性：LLM在MedQA基准测试中的准确性与其在真实世界病例中的准确性之间的相关性较弱。具体结果显示，MedQA基准测试的准确性并不能显著预测LLM在真实世界临床决策中的表现。
内容有效性：MedQA覆盖了广泛的临床场景，但过分偏向诊断问题，而忽略了治疗相关问题。真实世界病例中涉及的UMLS概念数量显著多于MedQA中的临床 vignettes。
构建有效性：LLM在MedQA基准测试中的排名与其在真实世界临床任务中的排名不一致，表明MedQA可能更多地捕捉到统计模式而非医学理解。

总体结论

这篇论文主张重新思考如何评估医疗LLMs，特别是随着其能力的抽象化和部署环境的开放化。论文提出了一种基于心理测试框架的定量评估方法，并使用EHR数据验证了MedQA基准测试的有效性。结果表明，现有的基准测试在标准有效性、内容有效性和构建有效性方面存在显著差距。论文呼吁建立一个以构建有效性为核心的医疗LLM评估新生态系统，推动研究和开发新的有效基准测试。

论文评价

优点与创新

理论贡献
：论文提出了将心理测试的验证方法应用于医学大型语言模型（LLMs）基准测试的理论框架，强调了构建有效基准的重要性。
实证验证
：通过使用真实世界临床数据（EHR），论文展示了如何对医学LLM基准进行实证评估，揭示了现有基准在构建有效性方面的显著差距。
新评估范式
：提出了一种新的评估范式，即先验证基准的有效性，再评估模型的性能，而不是反过来。
多维度验证
：论文详细介绍了三种验证类型（标准效度、内容效度和构建效度），并展示了如何在医学LLM基准中应用这些方法。
清晰的比较
：通过对比不同模型在基准测试和实际临床病例中的表现，提供了对模型能力的深入理解。

不足与反思

基准测试的局限性
：论文指出，现有的医学LLM基准测试大多是基于人为设计的数据集，缺乏对现实世界临床实践的准确反映。
数据隐私问题
：由于医院通常不愿意分享原始数据，论文建议的研究方法需要医院作为基准验证者，通过本地评估公共基准并向研究人员报告验证分数。
基准测试的动态性
：论文提到，随着医疗领域的不断变化（如人口变化、新药引入等），静态的基准测试可能会失去相关性，需要定期更新和调整。
临床实用性的挑战
：尽管论文强调临床实用性，但评估临床实用性通常需要模型嵌入医疗系统中，这对大多数研究人员来说是不可行的。
未来工作的方向
：论文建议未来的研究应继续探索更有效的基准测试方法，并考虑其他评估方法（如对话模拟器）在医学LLM评估中的应用。

关键问题及回答

问题1：论文中提到的“构建有效性”在医疗LLM基准测试中的具体含义是什么？

在医疗LLM基准测试中，“构建有效性”指的是测试或测量工具是否能够准确反映其旨在测量的理论构念。具体来说，构建有效性关注的是测试结果是否能可靠地区分不同模型在其所评估的临床技能上的表现。如果一个基准测试能够准确反映模型的实际临床推理能力，那么它的构建有效性就较高。论文通过比较LLM在基准测试和真实世界临床任务中的排名来评估其构建有效性。

问题2：论文中使用了哪些具体方法来评估MedQA基准测试的内容有效性？

论文使用了统一医学语言系统（UMLS）来定义医学知识的“内容域”，并通过以下步骤评估MedQA基准测试的内容有效性：

定义内容域
：使用UMLS整合医学词汇中的概念，如SNOMED、MeSH、LOINC、RxNorm和ICD。
概念提取
：利用cTAKES NLP系统提取MedQA问题和真实世界临床笔记中的UMLS概念。
比较覆盖率
：通过比较MedQA问题和真实世界临床笔记中的UMLS概念覆盖率，评估MedQA对医学知识内容域的代表性。

问题3：实验结果显示MedQA基准测试在标准有效性、内容有效性和构建有效性方面存在哪些具体差距？

标准有效性
：LLM在MedQA基准测试中的准确性与其在真实世界病例中的准确性之间的相关性较弱。具体结果显示，MedQA基准测试的准确性并不能显著预测LLM在真实世界临床决策中的表现。
内容有效性
：MedQA覆盖了广泛的临床场景，但过分偏向诊断问题，而忽略了治疗相关问题。真实世界病例中涉及的UMLS概念数量显著多于MedQA中的临床vignettes。
构建有效性
：LLM在MedQA基准测试中的排名与其在真实世界临床任务中的排名不一致，表明MedQA可能更多地捕捉到统计模式而非医学理解。例如，GPT-4在MedQA中排名靠前，但在真实世界病例中的表现却不如Llama 3。

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

* 大模型 AI 能干什么？
* 大模型是怎样获得「智能」的？
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例：向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示（Embeddings）
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2：手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身：基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例：如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】