A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
摘要
计算病理学(CPath)在任务无关的基础模型(FM)方面取得了显著进展,提升了多种下游临床任务的表现。尽管表现令人鼓舞,但仍然存在一些挑战。首先,之前的工作仅限于使用视觉数据或视觉-字幕数据,而忽视了宝贵的病理报告和基因表达谱,这些数据分别提供了不同的知识,对多种临床应用具有重要意义。其次,目前病理基础模型的进展主要集中在补丁级别,而补丁级别预训练的受限上下文无法捕捉全幻灯片模式。
在本研究中,我们整理了包括H&E诊断全幻灯片图像(WSIs)及其相关病理报告和RNA-Seq数据在内的最大多模态数据集,共包含来自32种癌症类型的10,275名患者的26,169个幻灯片级模态对。为了利用这些数据进行CPath,我们提出了一种新的全幻灯片预训练范式,将多模态知识注入全幻灯片上下文中的病理基础模型,称为多模态自学预训练(mSTAR)。该范式革新了CPath的预训练工作流程,使病理基础模型能够获取全幻灯片上下文。
据我们所知,这是首次尝试在幻灯片级别引入多模态知识以增强病理基础模型,将建模上下文从单模态扩展到多模态,从补丁级别扩展到幻灯片级别。为了系统评估mSTAR的能力,我们在43个子任务中的7种不同类型的任务上进行了广泛的实验,结果显示,mSTAR在各种幻灯片级应用中表现出显著的性能提升,与其他最先进的基础模型相比具有统计学显著差异。特别是,mSTAR通过整合多模态知识展示了其在多模态能力上的优越性。