上海交通大学在预印本平台Arxiv上发表的文章“RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis.”研究了一个数据集叫做RadGenome-Chest CT,它是为3D胸部CT解释而设计的全面、大规模且具有细粒度注释的数据集,建立在公开可用的CT-RATE基础之上。
01.引言
大型基础模型的发展激发了对通用医疗人工智能(GMAI)系统的开发的极大兴趣,特别是在影像学领域——医学诊断的一个关键部分。通过对大型视觉语言医学数据集进行训练,这些数据集将医学扫描与全球范围内的临床报告相匹配,例如MIMIC-CXR涵盖了227,835个研究的胸部X射线扫描,CT-RATE包含了来自20,000名患者的胸部CT扫描。这些医学模型已经展现出编写临床报告的初步能力,目标是支持放射科医师的整体工作流程,并显著降低工作量。然而,现有数据集通常仅提供对医学扫描的全局性报告,这给模型训练带来了局限。与此同时,RadGenome-Chest CT提供了一个基于公开可获取的CT-RATE数据集的、用于3D胸部CT解释的全面、大规模且细粒度的注释数据集。最初,我们运用了先进的、基于文本提示的通用分割模型SAT,来定位图像中的主要解剖结构。接着,通过大型语言模型和命名实体识别(NER)模型,我们将报告拆解为解剖学的层次结构,并将报告中的句子与CT体积中的视觉区域相链接。
02.RadGenome-Chest CT
RadGenome-Chest CT,这是一个用于 3D 胸部 CT 解释的全面、大规模、细粒度的注释数据集,建立在公开可用的 CT-RATE 的基础上。
1.数据源
-
CT-RATE数据集:是本研究的主要数据来源,包含25,692个非对比3D胸部CT扫描图像。
-
RAD-ChestCT:作为外部验证集,用于进一步评估模型的泛化能力。
2. 数据收集与预处理
-
数据分割:CT-RATE数据集被进一步划分为训练集(20,000名患者)和内部验证集(1,304名患者)。
-
元数据提取:从CT扫描中提取了丰富的元数据,包括患者的年龄、性别、扫描参数(如螺距因子、探测器行数等)等,这些信息对于后续的数据分析和模型训练非常关键。
3. 图像分割
-
详细分割:采用SAT对CT图像进行详细的解剖结构分割,以便将每个句子与相应的解剖区域相关联。
-
多粒度报告:生成了665k多粒度的基于解剖区域的报告,这些报告中的每个句子都对应到特定的解剖区域。
4. 视觉问答(VQA)数据构建
-
问题生成规则:基于从报告部分提取的“FINDINGS”,使用规则生成基于视觉的问题-答案(VQA)数据。问题类型包括异常、存在性、位置和大小等四种类型,并为每种类型设计了50个模板。
-
问题类型:具体包括:
-
异常:询问是否存在某种特定的异常情况。
-
存在性:确认某种结构或特征是否存在。
-
位置:询问异常或特征的具体位置。
-
大小:询问异常或特征的大小。
数据构建流程图
03.实验结果
模型性能评估
- 分割任务:
- 在验证数据集上,用于生成分割掩码的模型展示了高准确率(94.56%),这表明模型能够准确地将文本标签定位到图像中的相应区域。
- 零样本多异常检测:
-
利用CT-CLIP模型,进行了零样本多异常检测实验,展示了模型在未见过的数据集(如RAD-ChestCT)上的泛化能力。
-
实验结果表明,CT-CLIP模型在检测多种胸部CT异常(如动脉壁钙化、心脏肥大、肺气肿等)时,具有优于随机方法和完全监督方法的性能。
- 文本到图像的检索:
-
CT-CLIP模型还展示了根据文本报告检索相关CT图像的能力,这在临床实践中具有重要的应用价值,如教育和知识共享。
-
实验结果表明,CT-CLIP模型在检索相关CT图像时,其性能优于随机方法和基于词汇的基线方法。
结构示意图
解剖分层树
04.研究意义
1. 推动多模态医学基础模型的发展
RadGenome-Chest CT数据集通过提供包括区域级别的分割掩码、多层次的接地报告以及针对性的视觉问答对在内的丰富数据支持,极大地丰富了训练多模态医学基础模型的资源库。借助这些详尽的数据,模型能够更精准地描绘出区域性的异常及其对应的正常发现,或者解答与特定区域密切相关的问题。这不仅显著提升了医学诊断的准确率,也有效提高了其效率。
2. 弥补现有数据集的局限性
大多数现有的医学图像数据集仅提供全局性的医疗扫描报告,这在一定程度上限制了培训出能生成具体接地报告或执行接地问答的模型的潜力。RadGenome-Chest CT数据集通过将诊断报告内的描述性标签或发现与图像中对应的解剖区域通过分割掩码相连,有效地解决了这一挑战。这样,模型便能够依据视觉证据进行详细的文本解释,极大提升了其解释性和应用价值。
3.促进医学人工智能领域的研究和发展
RadGenome-Chest CT数据集将把所有的分割掩码、详细的接地报告以及相关的接地问答对公开给大众,为医学人工智能领域的研究者们提供了极具价值的数据资产。利用这批数据,研究人员们有机会开发出更为先进的医学图像分析算法和模型,从而不断推进医学人工智能技术的发展与革新。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。