今天解读的是发表在Nature上的一篇文章《A vision–language foundation model for precision oncology》。本研究设计了一个名为MUSK的视觉-语言多模态模型,旨在整合病理图像和临床文本等多模态数据以改进癌症的诊断和精准治疗。 MUSK利用大规模、未标记、非配对的图像和文本数据进行统一掩码建模预训练,并结合对比学习对齐模态特征。该模型在包括图像/文本检索、视觉问答、图像分类、分子生物标志物预测以及多种癌症(黑色素瘤复发、泛癌预后、肺癌和胃食管癌免疫治疗反应)的结果预测等23项基准测试中表现出卓越性能,显着优于现有模型。研究强调了MUSK结合病理图像和临床报告中互补信息的能力,展示了其在推动精准肿瘤学方面的巨大潜力。
01背景介绍
现如今的临床决策大多都极度依赖多模态数据,而人工智能整合多模态数据的能力对推动临床医疗意义重大。基础模型在医学人工智能研究中崭露头角,其预训练于大量多样数据集可用于多种下游任务。然而,多模态人工智能模型发展面临临床环境中注释良好的多模态数据集稀缺的问题。在医学领域,尤其是病理学方面,虽有研究开发视觉 - 语言基础模型,但存在不足,如依赖对比学习需要配对数据、数据规模有限、应用任务较简单且未涉及治疗反应和结果局限性。因此,开发更强大的视觉 - 语言基础模型用于精准肿瘤学迫在眉睫。
为克服上述难题,研究者提出MUSK--一个基于统一掩码建模(Unified Masked Modeling)的多模态Transformer模型。其核心优势在于能够利用更容易获得的大规模非配对图像和文本数据进行预训练,旨在学习更强大、更通用的医学视觉和语言表征,用于精准肿瘤学的广泛应用。
02研究方法
01 数据来源
预训练数据:从 PubMed Central 开放获取数据集提取 10 亿文本标记,从癌症基因组图谱(TCGA)获取 5000 万病理图像补丁用于掩码预训练;使用 QUILT-1M(80.2 万图像 - 文本对)和 PathAsst(20.7 万图像 - 文本对)数据集进行对比学习预训练。
评估数据:使用 BookSet、PathMMU 等多个公开基准数据集评估模型在多模态检索、视觉问答(VQA)和组织病理学图像分类等任务的性能;利用 VisioMel Challenge 数据集预测黑色素瘤复发;从 TCGA 收集数据预测泛癌预后;从斯坦福大学医学中心获取非小细胞肺癌(NSCLC)和胃食管癌患者数据预测免疫治疗反应。
图1:数据管理、模型开发和评估。a:MUSK模型预训练。我们开发了一个视觉语言的基础模型,建立在多模态Transformer架构作为网络骨干。模型预训练由两个连续的阶段组成。首先,MUSK在5000万张病理学图像和10亿个病理学相关文本标记上进行了预训练。这些图像来自11,577例患者的近33,000张全切片组织病理学扫描,代表33种肿瘤类型。MUSK模型改编自BEiT 3结构,由共享的自我注意模块和两名独立的视觉和语言输入专家组成;使用掩蔽建模实现预训练。第二,使用对比学习对来自模型QUILT-1 M的100万个图像-文本对进行MUSK预训练以进行多模态对齐。b:通用临床应用。一旦预训练完成,MUSK就可以用于各种下游任务,只需最少的训练或无需进一步训练。重要的是,我们使用全切片图像和临床报告评估了MUSK的结果预测,包括复发,预后和免疫治疗反应预测。MUSK在最先进的视觉语言基础模型(包括PLIP 15、QUILT 1 M46、BiomedCLIP 47和CONCH 16)的基础上进行了实质性的改进。使用BioRender创建B中报告、黑色素瘤、预后、肺癌和胃食管癌的图形。
02 分析方法
模型设计与预训练:受 BEiT3 启发,MUSK 预训练分两步。第一步用掩码数据建模处理大规模未配对图像和文本,第二步用约 100 万图像 - 文本对通过对比学习对齐模态。网络骨干采用通用多模态 transformer。在这个过程中,模型通过不同的训练方式学习图像和文本的特征表示,为后续的任务执行奠定基础。
多模态数据整理:为预训练收集未配对病理图像和文本用于掩码学习,配对图像 - 文本数据用于对比学习。在对比学习时采用类似 BLIP 的自训练方法,过滤低相似度图像 - 文本对以提高数据质量。通过这种方式,能够确保用于训练的数据质量更高,从而提升模型的性能。
图2:MUSK模型配置架构。a. MUSK为图像和文本数据模态集成了两个独立的转换器。这种架构独立处理每个模态中的序列,并将它们融合到注意力模块中,允许跨模态交互并确保不同数据类型的鲁棒性。B.在预训练的第二阶段,MUSK需要使用对比度损失作为其训练目标的模态对齐,并增加辅助MLM损失。这个MLM组件利用了一个简化的交叉注意解码器,该解码器采用文本嵌入作为查询,与图像嵌入动态交互,从而灌输复杂的跨模态见解。
统一掩码预训练:对文本采用掩码语言建模(MLM)损失,随机掩码 15% 的文本标记并预测;对图像采用掩码图像建模(MIM)损失,随机掩码 40% 的图像补丁并预测。训练特定于病理的图像标记器提升图像表示能力,同时进行多种图像增强操作,设置优化器、学习率调度器等训练参数,预训练 100 万步。在文本训练中,通过预测掩码标记,让模型学习文本的语义和语法信息;在图像训练中,预测掩码补丁的视觉标记,使模型能够捕捉图像的特征。特定病理图像标记器的训练,能更好地适应病理图像的特点,增强模型对病理图像的理解。
对比预训练:利用对比学习进一步训练 MUSK,计算对比损失和辅助损失优化模型。设计辅助损失时构建轻量级跨注意力解码器模块,用图像嵌入作为关键和值,语言嵌入作为查询,以增强模态对齐。训练 20 个 epoch,设置相应的批大小、图像增强、优化器等参数。对比损失使图像和文本的特征表示更加对齐,辅助损失则从细粒度上增强了模态之间的交互,提升模型对多模态数据的融合能力。
消融研究:对 MUSK 引入的病理特定增强、特定标记器、细粒度解码器和自训练对比学习进行消融研究,验证这些改进对优化模型性能的重要性。通过逐一去除这些关键改进部分,观察模型性能的变化,从而明确各个改进因素对模型整体性能的贡献。
图3:对训练配置进行消融研究的结果。我们进行了消融研究,以评估各种培训配置的影响(详细描述请参阅补充材料)。a.面具预训练的效果。B.数据分布的影响,比较自然图像/文本与病理图像/文本。c.使用Quilt 1 M,15 M图像与500 M文本标记,以及50 M图像与1B文本标记评估了掩码预训练的数据规模的影响。d.MUSK模型的模型容量。在a-d中,误差条表示数据集内标准偏差的平均值。I2 T检索、T2 I检索和VQA任务不提供误差线,因为它们是在单个数据集上进行评估的。使用的评价指标为线性探头分类、10次发射分类和零次发射分类任务的平衡准确度; VQA任务的准确度; I2 T和T2 I检索的Recall@50;以及I2 I检索的mMV@5。T2 I:文本到图像; I2 T:图像到文本; I2 I:图像到图像; VQA:视觉问题分类; cls:分类。采用双侧Mann-Whitney U检验评估比较方法之间差异的统计学显著性。在a-d中,n表示对应于每个任务的数据集的数量。
模型评估:在多个基准数据集上评估 MUSK 在多模态检索、VQA 和组织病理学图像分类等任务的性能;在黑色素瘤复发预测、泛癌预后预测和免疫治疗反应预测等临床任务中,通过五折交叉验证评估模型,并与其他模型对比;使用 AUC 评估黑色素瘤复发和免疫治疗反应预测性能,用 c 指数评估预后模型性能,用 Kaplan-Meier 曲线评估患者分层,用 log-rank 检验评估组间差异。在多模态检索任务中,通过在 BookSet 和 PathMMU 数据集上的测试,评估模型检索相关文本或图像的能力;在 VQA 任务中,依据 PathVQA 数据集上的表现衡量模型回答视觉问题的准确性;在图像分类任务里,通过不同数据集测试模型对图像类别的判断能力。在临床任务评估中,五折交叉验证确保模型性能的可靠性,AUC、c 指数等指标则量化了模型在不同临床预测任务中的有效性,Kaplan-Meier 曲线和 log-rank 检验用于分析患者生存情况和组间差异。
图4:对不同治疗方案患者进行分层的MUSK模型的Kaplan-Meier分析。a,b,结果表明,MUSK将患者的无进展生存期显著分层为低风险组和高风险组,分别为(a)肺癌和(b)胃食管癌,接受免疫治疗伴或不伴化疗。双侧对数秩检验用于比较高风险组和低风险组之间的生存差异。
模型可视化:生成热图展示模型预测相关区域,将全切片图像(WSI)裁剪为有 85% 重叠的图块,计算图块注意力分数并归一化,叠加在原始 WSI 上。这种可视化方法能够直观地展示模型在图像上关注的区域,帮助研究者理解模型的决策依据,例如在免疫治疗反应预测中,通过热图可以观察到模型关注的肿瘤微环境区域特征。
统计分析:零样本或微调任务用非参数自举法评估性能差异,五折交叉验证任务基于五折结果估计 95% 置信区间,用双侧 Mann-Whitney U 检验或双侧 Wilcoxon 符号秩检验评估统计显著性。这些统计方法保证了研究结果的可靠性和科学性,能够准确判断模型性能差异是否具有统计学意义。
03结果
01 总述
MUSK作为一个通用的视觉-语言基础模型,在广泛的下游任务中展现了强大的能力。它不仅在多个基准测试(包括检索、VQA、分类)上显著优于现有的基础模型,而且在极具挑战性的临床结果预测任务(复发、预后、免疫治疗反应)中也表现出色,证明了其整合多模态信息进行精准肿瘤学分析的潜力。
02 跨模态检索
在 BookSet 和 PathMMU 数据集的零样本跨模态检索任务中,MUSK 在图像到文本和文本到图像检索方面均超越其他 7 个基础模型。在 PathMMU 数据集的图像到文本检索中,MUSK 的 Recall@50 达到 34.4%(95% 置信区间:33.4 - 35.5%),而第二名 CONCH 仅为 27.3%(95% 置信区间:26.4 - 28.3%);在 BookSet 数据集,MUSK 的 Recall@50 为 74.8%(95% 置信区间:73.6 - 75.9%),CONCH 为 71.3%(95% 置信区间:70.0 - 72.6%) ,这表明 MUSK 在跨模态检索任务中具有强大的能力,能够准确检索相关文本或图像。
图5:MUSK用于监督图像分类的结果。a.在12个基准测试中,10个镜头的分类性能与7个备选视觉语言模型在分类平衡准确性方面进行了比较。双侧Wilcoxon符号秩检验用于评估MUSK与12个基准数据集中比较方法之间的统计学差异:支架(3类)(p = 0.43),UniToPatho公司(p = 0.002),支撑架(6-cls)(p = 0.002),SICAPv 2,第2版(p = 0.01),斑驼(p = 0.006),LC 25000剂量组(p = 0.002)、PanNuke(p = 0.23),肾细胞(p = 0.002),皮肤癌(p = 0.01),NCT-CRC-HE 100 K(p = 0.55),骨(p = 0.04),和WSSS 4LUAD(p = 0.006,p = 0.0000)。B,12个基准数据集的线性探针分类结果与7个备选模型的比较。在12个基准数据集中,使用双侧Wilcoxon符号秩检验来计算MUSK与比较方法之间的统计学差异。观察到的P值如下:支架(3类)(p = 0.002),Uni-ToPatho,单细胞病理学(p = 0.002),支撑架(6-cls)(p = 0.01),SICAPv2(p = 0.13),斑驼(p = 0.002),LC 25000剂量组(p = 0.002),泛核科技(p = 0.002)、肾细胞癌(p = 0.002)、皮肤癌(p = 0.002)、NCT-CRC-HE-100 K(p = 0.55)、Osteo(p = 0.002)和WSSS 4LUAD(p = 0.002)。在a和B中,我们给出了平均值和代表95% CI的误差线,其是根据n = 10个独立实验计算的。
03 视觉问答
在 PathVQA 数据集上,MUSK 的准确率达到 73.2%(95% 置信区间:72.1 - 74.4%),显著高于其他视觉 - 语言基础模型,如 PLIP、QUILT-1M、BiomedCLIP 和 CONCH。例如,针对 “What is presented?” 这类问题,MUSK 能给出更准确的答案,相比其他模型具有明显优势,突出了其在理解和回答视觉相关问题方面的卓越性能。
图6:跨模态检索和VQA介绍和结果验证a:零镜头图像到文本和文本到图像检索:在BookSet和PathMMU上,MUSK在不同的召回级别上始终优于现有的基础模型。使用双侧Wilcoxon符号秩检验评估MUSK与次佳模型(CONCH)之间的统计学差异。补充图4中显示了直观示例。b:VQA:在PathVQA基准测试中,MUSK的表现大大优于现有的基础模型
04 零样本图像检索
在 UniToPatho 和 BRACS 数据集的零样本图像检索任务中,MUSK 在所有评估指标上均优于其他基础模型。在 BRACS 数据集上,MUSK 在 mMV@5(前 5 个多数投票的准确率)指标上比 CLIP 高 22.3%,比 PLIP 高 8.6%,比 CONCH 高 2.5%,展示了其在零样本情况下对图像检索的高效性和准确性。
图7:MUSK用于图像到图像检索和图像分类的结果。a:我们在UniToPatho数据集上执行零拍摄图像检索,MUSK优于其他视觉语言基础模型。数据表示为具有95%置信区间的平均值。误差条表示95%置信区间,使用bootstrap方法用1000次重复进行估计。双侧Wilcoxon符号秩检验用于计算MUSK和最佳性能比较方法之间的统计学差异(在Recall@1、Recall@3、Recall@5和mMv@5中p < 0.0001)。b:BRACS数据集上的零激发图像检索。MUSK在各种召回水平下的表现明显优于其他基础模型,在Recall@1、Recall@3、Recall@5和mMv@5指标中的p值分别为0.02、0.07、0.04和0.03。示出了具有前3个候选者的图像检索结果的两个示例。DCIS:导管原位癌; IBC:浸润性乳腺癌。c.我们通过改变每个类的训练标签数量来评估各种模型在少量学习场景下的标签效率。我们展示了多个数据集[1,2,4,8,10]-拍摄分类的结果:LC 2500035,UniToPatho 29,NCT-CRC 37和BRACS(6 cls)30。平均精度表明,MUSK在这些基准测试中始终优于现有模型。在这些箱形图中,中心线表示中位数,箱形边界是第25和第75位数,须线延伸到四分位数间距的1.5倍。实验中的每个任务由使用10个独立实验生成的n = 10个数据点表示。
05 零样本图像分类
在 PatchCamelyon、SkinCancer、PanNuke 和 UniToPatho 等四个基准数据集的零样本图像分类任务中,MUSK 表现出色,超越了第二名模型(CONCH、BiomedCLIP 或 QUILT-1M,取决于数据集),优势分别为 10.5%、27.5%、7.3% 和 10.1% ,体现了其在无训练数据情况下对图像分类的良好适应性和准确性。
06 少样本图像分类
在 12 个基准数据集的少样本图像分类任务中,MUSK 在十 - shot 图像分类时准确率最高。在 UniToPatho 数据集上,MUSK 比第二名模型的准确率提高了 9.8%,在其他挑战性任务中也有显著的准确率提升,表明其在少量样本训练下也能表现优异。
图8:图像分类结果。a:图像分类:在UniToPatho、SkinCancer、PatchCamelyon和PanNuke基准数据集上进行评估时,MUSK的表现始终优于七个替代基础模型,P < 0.0001。b:十折图像分类。在12个基准测试数据集中,MUSK的表现始终优于其他基础模型。使用双侧Wilcoxon符号秩检验计算MUSK与最佳替代模型之间的统计学差异。数据以平均值和95% CI(误差线)表示。使用bootstrap法(n = 1000次重复)(a)根据n = 10次独立实验(b)计算这些区间。
07 监督图像分类
在使用 12 个基准数据集所有可用训练数据的监督图像分类任务中,MUSK 平均准确率达到 88.2%,超过 CLIP、PLIP、QUILT-1M、BiomedCLIP 和 CONCH 等模型,优势分别为 17.5%、9.1%、11.7%、11% 和 2.2%。这表明在有充分训练数据的情况下,MUSK 同样能取得优异的分类效果。
08 分子生物标志物预测
在预测乳腺癌受体状态(雌激素受体 ER、孕激素受体 PR、人表皮生长因子受体 2 HER2)和脑肿瘤异柠檬酸脱氢酶(IDH)突变状态时,MUSK 性能显著高于其他病理基础模型(Mann - Whitney u 检验,P<0.05。在预测 HER2 状态时,MUSK 的受试者工作特征曲线下面积(AUC)达到 0.826(95% 置 信区间:0.813 - 0.839),而 GigaPath 为 0.786(95% 置信区间:0.756 - 0.817),CONCH 为 0.771(95% 置信区间:0.745 - 0.796),P = 0.008,显示出 MUSK 在分子生物标志物预测方面的优势。
图9:MUSK与最先进的病理学基础模型在幻灯片级基准任务上的比较。比较方法包括单峰病理学基础模型(UNI、GigaPath和Virchow)和多峰病理学基础模型(PLIP和CONCH)。a:生物标志物预测。用于预测BCNB测试集中ER、PR和HER 2状态以及MUV-IDH数据集中IDH状态的AUC结果。b:免疫治疗反应预测。分别针对肺癌和胃食管癌的AUC和c指数性能。c:预后预测。16个TCGA队列的预后预测c指数结果。MUSK显著优于比较方法,如整体条形图所示(p值< 0.0001),代表16个项目的平均性能。在a-c中,基于5倍交叉验证实验,数据表示为具有标准偏差的平均值。双侧Mann-Whitney U检验用于评估MUSK和比较方法之间的统计学显著性。
09 黑色素瘤复发预测
预测准确性:在预测黑色素瘤 5 年复发风险时,MUSK 的 AUC 达到 0.833(95% 置信区间:0.818 - 0.847),高于 PLIP、QUILT-1M、BiomedCLIP 和 CONCH 等模型,表明其能更准确地预测黑色素瘤复发风险。
多模态优势:通过消融实验发现,基于临床报告或图像单独的模型在预测复发时准确性较低,而多模态 MUSK 模型结合两种数据模态的互补信息,显著提高了预测准确性。
临床应用价值:在预设 90% 敏感性阈值下,MUSK 模型的特异性比其他基础模型高约 12%(P = 0.0079),这意味着该模型可减少不必要的辅助治疗,具有重要的临床应用价值。
特征可视化:模型预测的可视化结果显示,MUSK 能自动揭示与预测复发相关的病理特征,如复发案例中存在皮肤溃疡、大量肿瘤内巨噬细胞伴随纤维化、较少的肿瘤内和肿瘤周围淋巴细胞以及活跃的有丝分裂活动;而无复发案例则显示表皮完整、大量肿瘤内和肿瘤周围淋巴细胞以及不明显的有丝分裂活动。
图10:黑色素瘤复发预测 (a,b),与现有的多模式病理学基础模型相比,MUSK在预测1342名黑色素瘤患者的5年复发风险方面实现了上级性能。c.在复发预测的90%灵敏度下,MUSK比其他基础模型显著提高了约15%的特异性。d.多模式MUSK模型在复发预测上比基于单独的临床报告或WSI的模型显著改善。e.两例复发和未复发的黑素瘤病例。在每个面板中,左边的图像显示了原始的WSI,而中间的图像显示了相应的热图,其中突出显示了WSI中重点关注的区域模型。右图提供了最受模型关注的区域的放大视图。复发病例显示存在皮肤溃疡,瘤内巨噬细胞丰富,伴有纤维化,瘤内和瘤周淋巴细胞减少,有丝分裂活跃。另一方面,无复发的病例显示表皮完整,无溃疡,瘤内和瘤周淋巴细胞丰富,有丝分裂活动不明显。在a、c和d中,数据表示为5倍交叉验证实验的平均值+/− SD,双侧Mann-Whitney U检验用于测量MUSK和比较方法之间的统计学显著性。
10 泛癌预后预测
预测性能优异:在 16 种癌症类型的预后预测中,MUSK 的 c 指数平均为 0.747,显著高于临床风险因素(如总体分期的 c 指数为 0.645,P<0.0001)和其他基础模型(如 PLIP 的 c 指数为 0.668,P<0.0001;QUILT-1M 的 c 指数为 0.672,P<0.0001 等)。在肾细胞癌的预后预测中表现最佳,c 指数达到 0.887(95% 置信区间:0.854 - 0.920),在乳腺癌、结直肠癌、低级别胶质瘤和子宫内膜癌等癌症中,c 指数也高于 0.8。
患者分层显著:通过 Kaplan-Meier 分析,MUSK 能显著区分高低风险患者,不同癌症类型的高低风险组生存曲线差异明显(log-rank 检验,P<0.001)。在肾细胞癌中,高风险组和低风险组的 10 年生存率分别为 48.3% 和 95.3%,风险比(HR)大于 30。
独立预后因素:多变量 Cox 回归分析证实,基于 MUSK 的风险评分是 16 种癌症类型的重要预后因素,独立于年龄、性别、分期和肿瘤分级等临床风险变量。
图11:对16种癌症类型的预后预测。A.Kaplan-Meier的分析显示,马斯克可以显著地对16种癌症类型的患者进行疾病特异性生存分层,比率范围从多形性胶质母细胞瘤的1.59到肾细胞癌的36.83。采用双侧对数列检验比较高危和低危两组患者的生存差异(中位数)。第二,多模式马斯克模型显著改善了基于临床报告或仅基于信息社会信息系统的模型的预后预测,如总体条形图所示(P<;0.0001)。整体条形图代表了16个项目的平均表现。膀胱尿路上皮癌(BLCA)、乳腺浸润性癌(BRCA)、宫颈鳞癌和宫颈内腺癌(CESC)、结直肠癌(COADREAD)、食道癌(ESCA)、多形性胶质母细胞瘤(GBM)、头颈部鳞状细胞癌(HNSC)、低级别胶质瘤(LGG)、肝细胞癌(LIHC)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、胰腺癌(PAAD)、肾细胞癌(RCC)、皮肤黑色素瘤(SKCM)、胃癌(STAD)和子宫内膜癌(UCEC)。b.在b中,数据表示为平均值,使用五次交叉验证实验计算标准偏差。用双侧Mann-Whitney U检验评估马斯克与比较方法之间的统计学意义。
11 肺癌免疫治疗
预测准确性提升:在预测 NSCLC 患者免疫治疗的客观反应和无进展生存期(PFS)方面,MUSK 的 AUC 为 0.768(95% 置信区间:0.724 - 0.812),c 指数为 0.705(95% 置信区间:0.677 - 0.732),均显著高于现有生物标志物(如肿瘤 PD-L1 表达的 AUC 为 0.606,95% 置信区间:0.492 - 0.699,P<0.0001;c 指数为 0.574,95% 置信区间:0.447 - 0.691,P<0.0001)和其他模型。
患者分层有效:MUSK 能有效分层患者,在整个队列中,MUSK 将患者分为高低风险组,HR 为 2.54(1.66 - 3.90),P<0.0001,高风险组和低风险组的中位 PFS 分别为 4.3 个月和 13.4 个月。此外,MUSK 能在不同 PD-L1 表达、EGFR 突变状态和治疗方案下对患者进行分层。在 PD-L1 阴性(TPS = 0)患者中,HR 为 7.38(2.15 - 25.38),P = 0.0002,这意味着 MUSK 可识别出部分可能从免疫治疗中获益的 PD-L1 阴性或 EGFR 突变患者亚群。
可视化解释:通过生成注意力热图,发现预测高反应可能性的患者,高关注区域有大量淋巴细胞浸润和极少的肿瘤内基质;而低反应可能性的患者,高关注区域则有极少的肿瘤内淋巴细胞浸润和大量基质。
图12:肺癌免疫治疗反应预测。a.在预测接受免疫治疗的NSCLC患者的客观缓解和PFS方面,MUSK显著优于其他基础模型。b.多模式MUSK模型显著改善了仅基于临床报告或WSI的模型,用于预测免疫治疗应答和结果。c.Kaplan-Meier分析表明,在整个队列和根据PD-L1表达和表皮生长因子受体(EGFR)突变状态定义的临床相关亚组中,MUSK将患者显著分层为PFS的高风险和低风险组。采用双侧log-rank检验比较高危组与低危组的生存差异。d.对免疫疗法有和没有客观应答的肺癌病例的两个例子。在每个面板中,左边的图像显示原始WSI,而中间的图像显示相应的热图,该热图突出显示了模型在WSI中关注的区域。右图提供了模型最关注的区域的放大视图。缓解的病例显示大量淋巴细胞浸润和极少量基质。另一方面,无应答的病例显示出极轻微的淋巴细胞浸润和丰富的基质。TPS,肿瘤比例评分。在a和b中,误差线代表平均值和从五重交叉验证实验计算的标准差,并使用双侧Mann-Whitney U检验测量MUSK和比较方法之间的统计学显著性。
12 胃食管癌免疫治疗
预测性能优势:在预测胃食管癌患者免疫治疗的客观反应和 PFS 方面,MUSK 的 AUC 为 0.762(95% 置信区间:0.718 - 0.805),高于其他模型。在预测 PFS 时,MUSK 同样优于其他基础模型。
患者分层与模型优势:MUSK 能将患者分为高低风险组,HR 为 3.49(2.02 - 6.01),P<0.0001,高风险组和低风险组的中位 PFS 分别为 3.6 个月和 14.1 个月。MUSK 还能在不同生物标志物定义的亚组和治疗方案下对患者进行分层。多变量 Cox 回归分析表明,MUSK 是除 MSI 状态外唯一显著的 PFS 预测因子(P = 0.0013)。
可视化特征:可视化注意力热图显示,有反应的患者肿瘤内和周围有大量淋巴细胞浸润,基质纤维化较少且水肿较多;无反应的患者淋巴细胞浸润极少,肿瘤内和肿瘤周围纤维化基质增多。
图13:胃食管癌免疫治疗应答预测。a.在预测接受免疫疗法治疗的胃食管癌患者的客观缓解和无进展生存期方面,MUSK优于其他基础模型。b.多模态MUSK模型改进了仅基于临床报告或WSI的模型。c.Kaplan-Meier分析表明,在整个队列和临床相关亚组中,MUSK将患者显著分层为无进展生存期的高风险组和低风险组。双侧对数秩检验用于比较高风险组和低风险组之间的生存差异。HR:风险比。d:多因素Cox回归分析显示,除MSI外,MUSK是唯一有意义的无进展生存预测因子。我们使用双侧Wald检验计算了P值,并给出了HR和95%置信区间。e.免疫治疗有和无客观应答的胃食管癌病例的两个实例。在每个面板中,左边的图像显示了原始的WSI,而中间的图像显示了相应的热图,其中突出显示了WSI中重点关注的区域模型。右图提供了最受模型关注的区域的放大视图。有反应的病例显示肿瘤内和周围有大量淋巴细胞浸润;基质纤维化较少,水肿较多。另一方面,无缓解的病例显示出极轻微的淋巴细胞浸润和瘤内和瘤周纤维化基质增加。CPS:联合阳性评分; MSI/MSS:微卫星不稳定/稳定; ADC:腺癌; SCC:鳞状细胞癌。在a和B中,误差线表示平均值和从5重交叉验证实验计算的标准差,双侧MannWhitney U检验用于测量MUSK和比较方法之间的统计学显著性。
04局限性
本研究的局限性主要有以下几点:
免疫治疗队列规模和来源:用于评估免疫治疗反应预测的两个队列(NSCLC和胃食管癌)样本量相对较小,且均来自单一医疗中心。这可能限制了模型泛化能力的评估。
前瞻性验证:虽然模型在回顾性数据上表现优异,但在应用于临床决策(尤其是高风险的治疗选择)之前,必须在更大规模、多中心的前瞻性临床试验中进行严格验证,以评估其安全性、有效性和临床实用性。
可解释性局限:虽然使用了注意力热图进行可视化,但深度学习模型本身的“黑箱”特性仍然存在,完全理解其决策逻辑仍有挑战。
小编说明:
本文提出的 MUSK 模型为精准肿瘤学带来了新的突破,有效整合了病理图像和临床报告信息,在多种癌症相关任务中表现卓越。然而,模型走向临床应用仍面临数据代表性和验证等问题。未来研究可进一步扩大数据规模,开展多中心研究,优化模型性能,增强其临床实用性,为癌症患者提供更精准的诊断和治疗方案。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】