方法创新有了！快来学习Nature Commun的多模态多任务基础模型研究！

最新推荐文章于 2025-06-09 14:14:38 发布

程序员笑武

最新推荐文章于 2025-06-09 14:14:38 发布

阅读量602

点赞数 24

文章标签：学习人工智能 chatgpt python copilot

本文链接：https://blog.csdn.net/m0_59164304/article/details/146389221

版权

Nature Communications近期的研究提出了一种用于低剂量肺部CT肺癌筛查的医学多模态多任务基础模型，非常适合各位读者学习参考来提升自身研究的创新性。尤其是其中的CTViT组件通过多尺度线性分词器和解耦的物理尺寸嵌入机制实现了尺寸感知，更是让人耳目一新。

引言

肺癌是全球范围内发病率和死亡率最高的癌症之一。尽管近年来医学领域在肺癌早期筛查、靶向治疗和免疫治疗方面取得了一定进展，但其高致死率依然令人关注。低剂量肺部CT作为一种肺癌筛查手段，已被证明能够有效降低高风险人群的肺癌死亡率。然而，低剂量肺部CT的应用一方面面临着假阳性率较高的问题，另一方面面临着放射科医师短缺的现状。

随着人工智能研究在医学领域的深入，面向肺癌筛查任务已积累了大量的多模态数据，包括低剂量肺部CT图像、病理结果以及临床数据等。同时，随着大模型的出现，基础模型也在生物医学领域展现出前所未有的能力。基于人工智能技术开展研究，有望显著提升肺癌筛查的质量和效率。

Nature Communications近期的研究提出了一种用于低剂量肺部CT肺癌筛查的医学多模态多任务基础模型，通过大规模的多模态和多任务学习，该模型各类肺癌筛查任务展现出卓越的诊断能力。

数据及方法

该研究的数据收集自于美国的两个数据中心及两个医学机构，通过医学任务定义、特定任务的多模态数据收集、多模态数据处理以及多模态问答构建四个步骤进行数据集构建。该研究整理的多模态多任务数据集涵盖49种临床数据类型、163725例胸部CT影像序列和17个肺癌筛查相关任务。

该研究提出的医学多模态多任务基础模型旨在有效编码多模态数据，并通过文本提示在统一且可扩展的方式下灵活执行多种任务，主要包含CTViT、文本Transformer、任务编码器和预测器四个组件。

CTViT负责处理和提取CT图像的多尺度特征。它通过将3D CT图像切分为非重叠的3D小块（图像Token），并利用多尺度CT标记器和图像编码器来提取有效的特征表示。CTViT还通过引入正弦余弦函数来编码图像的物理尺寸，进一步提升了模型在处理不同患者图像时的灵活性和准确性，使得即使在没有重采样CT图像的情况下，也能实现尺寸感知和高效的特征提取。

文本Transformer负责处理临床文本数据和任务描述。它采用字节对编码器（BBPE）对患者的临床信息（如年龄、性别、病史等）和任务指令（如"预测肺癌风险"）进行编码，将文本信息转化为适合后续处理的嵌入表示。

任务编码器负责提取与特定任务相关的特征。在多模态数据输入下，任务编码器利用一个特殊的Token来识别整合不同模态的特征，生成与任务相关的任务特征，供后续的任务预测器使用。

预测器根据任务特定的嵌入特征输出最终结果。根据任务的不同，M3FM使用不同的预测器，或对于相同的输出维度，可能共享相同的预测器。预测器能够处理分类问题、回归问题等多种任务，如风险预测、图像分割等。

总结

综合而言，在数据方面，该研究整理了涵盖49种临床数据类型、163725例胸部CT影像序列和17个肺癌筛查相关任务的多模态多任务数据集，并提供OpenM3Chest可供大家下载；在方法创新方面，CTViT通过多尺度线性分词器和解耦的物理尺寸嵌入机制，能够灵活地处理多种尺寸的图像。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述