多模态诊断模型是近年的研究热点,对于多模态诊断模型面临的质疑包括两方面:一是可解释性;二是临床实用价值。本文以脉络膜肿瘤为例,重点突出了模型的可解释性和临床实用价值。从本文结果看来,本文提出的MMCBM不仅仅是一个模型更是一个实用的诊疗助手。
1. 目的
本研究旨在构建一个可解释的多模态人工智能诊断模型,用于区分三种脉络膜肿瘤:脉络膜黑色素瘤、血管瘤和转移性癌。面对罕见疾病数据稀缺、诊断依赖专家经验等挑战,研究者提出一种概念驱动的AI方法(MMCBM),以提升诊断的准确性、可解释性和临床实用性。
2. 数据
本研究构建了亚洲最大规模的脉络膜肿瘤影像数据库,主要来自三家国内顶级医院分别是:
-
北京同仁医院2013-2019年共750名患者的CT数据,其中包含542例黑色素瘤,128例血管瘤,80例转移性癌。数据模态包括:荧光素血管造影(FA)、吲哚青绿血管造影(ICGA)、眼部超声(US)。其中97位患者配有完整三模态图像与临床报告;
-
同时还使用了2020-2023年间83例同仁医院的患者数据作为独立测试集;
-
还有来自四川华西医院(2023–2024)的43例数据作为外部测试集;
数据的具体分布细节如下图所示:
3. 方法
本文提出的 Multimodal Medical Concept Bottleneck Model(MMCBM)是一个将 临床语言知识与图像特征对齐的可解释AI诊断模型。本文的方法流程图如下图所示:
从流程图来看,本文方法主要包含了三个核心模块:
a. 图像-概念对构建(Concept Construction)
为了将临床知识引入模型,研究团队首先利用 GPT-4 对医生撰写的FA、ICGA和US影像报告进行自然语言处理,从中自动提取出与诊断相关的医学影像“概念”表达,例如“晚期弱荧光”、“亚视网膜低荧光”等。这些概念被构建为图像-概念对(image-concept pairs),并经过资深眼科医生逐一审核与修改,确保每个概念语义清晰、具有临床可解释性,从而构建了一个多模态医学概念库,为后续建模提供语义支撑。
b. 概念激活向量学习(Concept Activation Vectors)
在获得概念库后,研究者将其与图像数据进行对齐。通过将图像特征输入支持向量机(SVM),为每一个医学概念学习一个“概念激活向量”(Concept Activation Vector, CAV),即在特征空间中表示该概念的方向。随后,模型可以根据图像与这些CAV的相似度计算每个概念的激活得分,实质上将图像信息投影到了临床语义空间中,实现从低级像素到高级概念的桥接。
c.可解释诊断预测与报告生成
在模型推理阶段,图像首先由预训练编码器提取特征,再通过与概念激活向量的对齐得到概念得分,进而由线性分类器完成疾病类别(黑色素瘤、血管瘤、转移癌)预测。同时,模型还会输出 top-k 高激活概念,提供对诊断结果的可视化解释。最后,结合患者基本信息与概念得分,GPT-4可自动生成结构化、类医生风格的诊断报告,实现从图像输入到语言输出的完整临床辅助流程。
本文在最后实现概念空间分类(concept space classification),其核心是将图像特征投影到一个由医学概念组成的空间中,并基于这些概念得分完成诊断分类。这个过程具体如下:
a.图像特征提取:
-
利用预训练的图像编码器(针对 FA、ICGA、US 模态)将图像转化为特征向量。
b.概念激活向量(CAV)获取:
-
每一个医学概念(如“晚期荧光增强”、“低回声区”等)都通过 SVM 分类器与图像特征对齐。
-
得到的CAV可视为表示该概念的超平面方向。
c. 概念得分计算:
-
对于给定图像,其特征向量与每个 CAV 做**点积**,得到每个概念的“激活得分”:
-
最终形成一个 **概念得分向量**,维度为 NNN,代表图像在概念空间中的表达。
本文实现可解释性的核心,在于将低层视觉特征转换为具有临床意义的“概念表达”,并将诊断过程模块化为“图像 → 概念 → 诊断”的流程。这不仅提高了模型的透明度,也让医生能够参与和验证AI的决策过程,是目前少见的“类人思维机制”的AI诊断系统
4. 结果
本文的结果部分展示的非常详细,除了常规的模型泛化性能比较,还着重展示了本文的几个创新点,一是模型可解释性,二是整个诊断系统的临床实用价值和交互能力。突出了本文工作的优点。
4.1 模型性能比较
在下图中展示了本文提出的 MMCBM 模型在结构、性能与泛化能力方面的综合优势。首先,图a对比了模型结构,强调MMCMB在黑盒模型基础上引入“概念空间”,实现了诊断路径的可解释性。随后,图b与c分别比较了不同输入模态下的 F1-score 和敏感性,结果显示MMCMB在单模态和多模态条件下均与黑盒模型性能相当,尤其在多模态输入下表现最佳。最后,d与e展示了模型在同仁医院独立时间段数据和华西医院外部数据上的测试结果,MMCBM相较黑盒模型具有更好的跨时间与跨中心泛化能力,特别是在外部数据上,F1-score 提高了 15.5%。
4.2 人机交互能力评估
除了单纯的模型性能评价,文章中还评估了 MMCBM 模型在诊断过程中支持人机交互干预的能力以及其可解释性在实际中的应用价值。图a 通过“模拟专家干预实验”表明:当医生对模型输出的部分概念进行纠正(即介入概念得分)时,模型的 F1-score 和敏感性显著提升,且干预3–4个概念时效果最优,过多反而可能引入噪声。图b 展示了具体案例:医生基于 MMCBM 输出的 top-k 概念进行判断,有时能成功修正错误预测,也有时难以纠正,说明概念输出具有参考价值但不绝对可靠。MMCBM 模型不仅可解释,而且具备“可控性”和“协作性”,为临床医生提供了一个可验证、可干预的智能诊断工具。
4.3 临床诊断效果评估
进一步的,本文还评估了MMCBM 模型在临床辅助诊断中的实际应用效果,特别是对医生诊断能力的提升。图a 显示,6名年轻眼科医生在未辅助情况下 F1-score 为 38.5%,而在 MMCBM 提供的 top-10 概念支持下,F1-score 提升至 54.7%,提升幅度达 42%;而两位资深医生本身准确率较高,使用模型后表现基本持平,表明模型预测与专家判断高度一致。图b 给出了两个具体案例,分别展示了模型概念输出成功帮助医生纠正误判以及在部分情况下未能改变误判的情境。MMCBM 作为“智能助手”的价值,尤其在提高年轻医生诊断准确率、实现人机协作方面展现出重要潜力。
4.4 可解释性评价
本文在验证MMCBM 模型可解释性方面的工作特别值得借鉴,在下图中展示了模型在特征表达、概念准确性以及与专家标注一致性方面的可解释性表现。图a 通过 t-SNE 可视化展示了模型对三类脉络膜肿瘤(黑色素瘤、血管瘤、转移癌)的特征嵌入具有良好聚类效果,特别是在多模态输入下表现更清晰。图b 展示了用于构建概念空间的 SVM 分类器在各个概念上的准确率,FA 和 ICGA 概念普遍超过90%,US 概念也稳定在80%以上,说明概念定义与图像特征高度一致。图c 进一步通过 Precision@k、Recall@k 等指标量化模型输出概念与专家标注的重合度,结果显示:模型从报告中提取的概念已能较好贴近专家知识,且经专家验证的概念库进一步提升了一致性。
4.5 系统交互功能展示
最后,本文突出了MMCBM模型作为临床环境的真实助手的价值,在下图中展示了 MMCBM 模型在真实临床环境中的交互式应用界面与工作流程,强调其在“人机协同诊断”中的实用性。图a 展示了医生选择 FA 和 ICGA 多时相图像用于判断的图像展示面板;图b 展示了概念得分可视化与调整界面,医生可手动干预概念置信度以修正模型预测;图c 给出了模型处理的典型病例及其 top-k 诊断概念,便于医生快速理解模型依据;图d 展示了结合患者信息与激活概念,通过 GPT-4 自动生成的结构化诊断报告。MMCBM 在临床中不仅具备可解释性和预测能力,还提供了友好的人机交互界面,助力医生高效、透明地完成诊断工作。
5. 讨论
本文突出了 MMCBM 模型在罕见疾病诊断中的创新性与临床价值,指出其通过引入“医学概念”实现了类医生思维的可解释诊断流程,不仅提升了年轻医生的诊断水平,也增强了模型在真实场景中的可信度。相比传统显著性图等黑盒解释方法,MMCBM 能以结构化、语义化的方式输出诊断依据,便于教学与审查。
本文多模态诊断系统的构建借助了一些开源工具,尤其是在语义对齐的阶段,通过利用chatgpt构建出概念库,为后续可解释性概念奠定了基础。本文的可解释性方式也非常有意思,与直接从图像上解释不通,本文通过引入可解释性语义概念作为中间值,来提高模型的可解释性,这种方式非常值得大家在研究中借鉴。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】