医疗大模型训练必备数据集 | 上海交通大学提出多模态视觉-语言胸部CT分析数据集

最新推荐文章于 2025-03-19 21:56:26 发布

小马不会过河

最新推荐文章于 2025-03-19 21:56:26 发布

阅读量1.6k

点赞数 12

文章标签：人工智能 redis 数据库缓存 chatgpt

本文链接：https://blog.csdn.net/m0_59163425/article/details/143723499

版权

上海交通大学在预印本平台Arxiv上发表的文章“RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis.”研究了一个数据集叫做RadGenome-Chest CT，它是为3D胸部CT解释而设计的全面、大规模且具有细粒度注释的数据集，建立在公开可用的CT-RATE基础之上。

01.引言

大型基础模型的发展激发了对通用医疗人工智能（GMAI）系统的开发的极大兴趣，特别是在影像学领域——医学诊断的一个关键部分。通过对大型视觉语言医学数据集进行训练，这些数据集将医学扫描与全球范围内的临床报告相匹配，例如MIMIC-CXR涵盖了227,835个研究的胸部X射线扫描，CT-RATE包含了来自20,000名患者的胸部CT扫描。这些医学模型已经展现出编写临床报告的初步能力，目标是支持放射科医师的整体工作流程，并显著降低工作量。然而，现有数据集通常仅提供对医学扫描的全局性报告，这给模型训练带来了局限。与此同时，RadGenome-Chest CT提供了一个基于公开可获取的CT-RATE数据集的、用于3D胸部CT解释的全面、大规模且细粒度的注释数据集。最初，我们运用了先进的、基于文本提示的通用分割模型SAT，来定位图像中的主要解剖结构。接着，通过大型语言模型和命名实体识别（NER）模型，我们将报告拆解为解剖学的层次结构，并将报告中的句子与CT体积中的视觉区域相链接。

02.RadGenome-Chest CT

RadGenome-Chest CT，这是一个用于 3D 胸部 CT 解释的全面、大规模、细粒度的注释数据集，建立在公开可用的 CT-RATE 的基础上。

1.数据源

CT-RATE数据集：是本研究的主要数据来源，包含25,692个非对比3D胸部CT扫描图像。
RAD-ChestCT：作为外部验证集，用于进一步评估模型的泛化能力。

2. 数据收集与预处理

数据分割：CT-RATE数据集被进一步划分为训练集（20,000名患者）和内部验证集（1,304名患者）。
元数据提取：从CT扫描中提取了丰富的元数据，包括患者的年龄、性别、扫描参数（如螺距因子、探测器行数等）等，这些信息对于后续的数据分析和模型训练非常关键。

3. 图像分割

详细分割：采用SAT对CT图像进行详细的解剖结构分割，以便将每个句子与相应的解剖区域相关联。
多粒度报告：生成了665k多粒度的基于解剖区域的报告，这些报告中的每个句子都对应到特定的解剖区域。

4. 视觉问答（VQA）数据构建

问题生成规则：基于从报告部分提取的“FINDINGS”，使用规则生成基于视觉的问题-答案（VQA）数据。问题类型包括异常、存在性、位置和大小等四种类型，并为每种类型设计了50个模板。
问题类型：具体包括：
异常：询问是否存在某种特定的异常情况。
存在性：确认某种结构或特征是否存在。
位置：询问异常或特征的具体位置。
大小：询问异常或特征的大小。

数据构建流程图

03.实验结果

模型性能评估

分割任务：

在验证数据集上，用于生成分割掩码的模型展示了高准确率（94.56%），这表明模型能够准确地将文本标签定位到图像中的相应区域。

零样本多异常检测：

利用CT-CLIP模型，进行了零样本多异常检测实验，展示了模型在未见过的数据集（如RAD-ChestCT）上的泛化能力。
实验结果表明，CT-CLIP模型在检测多种胸部CT异常（如动脉壁钙化、心脏肥大、肺气肿等）时，具有优于随机方法和完全监督方法的性能。

文本到图像的检索：

CT-CLIP模型还展示了根据文本报告检索相关CT图像的能力，这在临床实践中具有重要的应用价值，如教育和知识共享。
实验结果表明，CT-CLIP模型在检索相关CT图像时，其性能优于随机方法和基于词汇的基线方法。

结构示意图

解剖分层树

04.研究意义

1. 推动多模态医学基础模型的发展

RadGenome-Chest CT数据集通过提供包括区域级别的分割掩码、多层次的接地报告以及针对性的视觉问答对在内的丰富数据支持，极大地丰富了训练多模态医学基础模型的资源库。借助这些详尽的数据，模型能够更精准地描绘出区域性的异常及其对应的正常发现，或者解答与特定区域密切相关的问题。这不仅显著提升了医学诊断的准确率，也有效提高了其效率。

2. 弥补现有数据集的局限性

大多数现有的医学图像数据集仅提供全局性的医疗扫描报告，这在一定程度上限制了培训出能生成具体接地报告或执行接地问答的模型的潜力。RadGenome-Chest CT数据集通过将诊断报告内的描述性标签或发现与图像中对应的解剖区域通过分割掩码相连，有效地解决了这一挑战。这样，模型便能够依据视觉证据进行详细的文本解释，极大提升了其解释性和应用价值。

3.促进医学人工智能领域的研究和发展

RadGenome-Chest CT数据集将把所有的分割掩码、详细的接地报告以及相关的接地问答对公开给大众，为医学人工智能领域的研究者们提供了极具价值的数据资产。利用这批数据，研究人员们有机会开发出更为先进的医学图像分析算法和模型，从而不断推进医学人工智能技术的发展与革新。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述