A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
摘要
计算病理学(CPath)在任务无关的基础模型(FM)方面取得了显著进展,提升了多种下游临床任务的表现。尽管表现令人鼓舞,但仍然存在一些挑战。首先,之前的工作仅限于使用视觉数据或视觉-字幕数据,而忽视了宝贵的病理报告和基因表达谱,这些数据分别提供了不同的知识,对多种临床应用具有重要意义。其次,目前病理基础模型的进展主要集中在补丁级别,而补丁级别预训练的受限上下文无法捕捉全幻灯片模式。
在本研究中,我们整理了包括H&E诊断全幻灯片图像(WSIs)及其相关病理报告和RNA-Seq数据在内的最大多模态数据集,共包含来自32种癌症类型的10,275名患者的26,169个幻灯片级模态对。为了利用这些数据进行CPath,我们提出了一种新的全幻灯片预训练范式,将多模态知识注入全幻灯片上下文中的病理基础模型,称为多模态自学预训练(mSTAR)。该范式革新了CPath的预训练工作流程,使病理基础模型能够获取全幻灯片上下文。
据我们所知,这是首次尝试在幻灯片级别引入多模态知识以增强病理基础模型,将建模上下文从单模态扩展到多模态