论文解读 | CVPR2024:知识感知注意力的动态图表示用于组织病理学全幻灯片图像分析...

点击蓝字

49c833f4c9f7a78d86853ee8006858cc.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

e1b18c50c366cf665c06bd28f0219cd5.jpeg

李嘉文 

清华大学,深圳国际研究生院硕士生

论文标题

Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis

概述

组织病理全切片图像(WSIs)分类已经成为医学显微成像处理中的基础任务。现有方法涉及学习WSIs作为实例-袋表示,强调显著实例但难以捕捉实例之间的交互。此外,传统的图表示方法利用显式空间位置构建拓扑结构,但限制了在任意位置之间的实例的灵活交互能力,尤其是在空间上距离较远时。为此,作者提出了一种新颖的动态图表示算法,将WSIs构想为知识图结构的一种形式。具体而言,作者基于实例之间的头部和尾部关系动态构建邻居和有向边嵌入。然后,作者设计了一个知识感知注意机制,该机制可以通过学习每个邻居和边的联合注意力得分来更新头节点特征。最后,通过更新的头节点的全局池化过程获得图级嵌入,作为WSI分类的隐式表示。我们的端到端图表示学习方法在三个TCGA基准数据集和内部测试集上均超过了最先进的WSI分析方法。

论文链接:

https://arxiv.org/pdf/2403.07719.pdf

代码链接:

https://github.com/WonderLandxD/WiKG

1. 研究背景

在医学领域,特别与显微成像相关的病理学研究中,传统的病理学分析主要依赖于显微镜下的实体切片观察,这种方法费时且人力成本高,通常需要一至两天才能得出初步的筛查结果。然而,随着光学显微成像技术的进步,现在已经能够将这些实体切片高效地扫描成全视野切片(Whole slide image,简称WSI),并通过电脑进行数字化诊断,这一技术极大地提高了筛查效率和诊断准确性。为了实现这种现代化的数字诊断方式,关键技术包括高通量快速切片扫描仪的开发、计算机辅助诊断软件系统的构建以及人工智能辅助诊断工具的应用。当前研究正在积极探索利用人工智能模型,对WSI进行分类、检测、分割和预测,以提供更准确、更高效的定量定性诊断结果,助力病理专家更准确地评估患者的病情和预后。

8dfb47cad8c1959c5153880daf0f4282.png


由于计算资源的限制,特别是在处理WSI这种大规模高分辨率图像时,传统的人工智能方法面临一定的挑战。WSI通常具有非常高的分辨率,如10万×10万或更大,这也导致了大量的硬盘存储和显存需求。由于这些特点,从传统的自然图像处理技术直接应用到组织病理学分析中变得困难。

为了克服这些挑战,通常采用的方法是首先使用预处理和分割技术来识别图像中的前景区域,这些区域通常包括组织的轮廓、腺体、细胞等。之后,这些分割出的区域(通常称为“patch”)被输入到神经网络中进行训练,以实现更高效的分析。

以前的方法主要依赖于全监督学习的方案,通过为这些patch打上相应的标签并使用可学习的聚合器或传统的非学习聚合器进行预测,以实现WSI的分类。然而,这种方法需要大量的patch级别的标注,这在病理学领域是难以接受的,因为医院的病理专家通常难以为研究者提供足够的标注数据。

为了解决这个问题,当前的研究趋势是将WSI分析方法扩展到弱监督学习领域。现在最常见的方法是基于特征嵌入级别的多示例学习(Multiple instance learning,简称MIL)。MIL首先使用预训练的特征提取器来提取patch的相关特征嵌入,然后将这些嵌入输入到可学习的聚合器中,以学习WSI级别的全局表示,最后通过这些表示进行进一步的分析,得到下游任务的相关指标。这种方法允许在较少的标注数据下实现更高效的分析和诊断。

398c60d17bc23a2f83c6b4a7bf27a71f.png

目前利用MIL对WSI进行分析的研究通常都是在基于注意力机制下的聚合方法进行设计的。然而,这些方法难以有效建模patch之间的相互作用,因为注意力机制主要关注于各自patch的特征。为了解决这一问题,基于图表示的WSI分析方法被逐渐重视起来,因为它可以将patch表示成节点,通过建模节点之间的拓扑关系来实现patch之间的内部上下文关联。具体而言,这种方法通过建模节点间的空间位置关系来设计图层级网络,从而更新特征,包括最终的聚合,以获取WSI级别的全局图表示。这种图结构的方法能够更好地捕捉patch之间的内部关系,从而提高模型的性能和准确性。

典型应用

基于图表示的方法已在多个应用场景中显示了其有效性和潜力。首先,应用图结构方法,能够成功地预测癌症患者的生存率,为临床医学研究提供了有力的工具。其次,还能够对病理免疫组化相关指标进行评分,这对于准确评估疾病的严重性和患者的治疗需求至关重要。第三,也可以应用于基本癌症的检测,辅助医生更准确地区分切片的良恶性,从而为个体化治疗提供指导。最后,也可以用于组织肿瘤的分型和分期,这将帮助医生进一步提高诊断的准确性和治疗的针对性。

c3584adfc3043be83d6eb0c75ed9578d.png

总的来说,与传统的MIL对WSI进行分析的方法相比,图表示方法在众多研究中已被证明具有更高的准确性和可靠性。这些研究结果进一步验证了作者所提方法的有效性,显示出其在医学诊断和研究中的巨大潜力。

2. 研究动机

本文的研究动机主要源于对传统图模型建模方法的挑战。上述的图表示方法研究多数集中在利用空间级别的显式位置关系进行建模,即通过构建固定边来提取嵌入,并进行更新。然而,本文认为这种空间级别的建模方式很难捕捉到远距离的快速相互作用,为此,作者旨在设计一种动态的建模方式,它能够解除固定邻居带来的构边限制,这是第一个考虑点。

第二个考虑点是,作者认为在每个patch间的关系中应该存在有向的相互作用,而不仅仅是通过无向图来表示。为此,作者希望设计一种有向边的图表示方法,这能够更准确地传递patch之间的信息,从而更有效的建模拓扑结构。

40c1965ff5337e8df47389b2845ea959.png

3. 所提方法

因此,基于上述两个动机,这篇工作中引入了一个名为"WiKG"(WSI is Knowledge Graph)的方法。该方法将WSI视为知识图谱的形式来进行表示。本文的框架主要由四个部分构成。

fa21226e7c01d0472a679aa586afa959.png

首先,通过预训练的特征提取器来提取patch的特征,然后与之前基于空间位置的建模方式不同,本文首先将这些特征映射到每一个patch级别的头和尾嵌入。接着,计算这些头和尾嵌入之间的相似度,以构建有向边。其次,受到知识图谱在推荐系统中的应用启发,作者利用知识感知的注意力机制来融合相关的节点信息,有效地捕获patch之间的复杂相互作用。最后,通过这种融合的过程,得到了WSI级别的全新表示,为病理学分析提供了更准确和有信息量的结果。

3.1 映射Patch的头-尾嵌入,并根据两者之间的相似度构建邻边

具体而言,作者首先介绍了如何映射patch到图嵌入,从而构建一个动态图模型。作者将每个patch表示为X_1,X_2,⋯X_N,其中每个X都代表每个patch之间的特征响应或者嵌入。

第一步,作者通过一个线性变换来提取每个patch的头嵌入和尾嵌入。这些嵌入表示了patch在特征空间中的位置。第二步,使用了softmax形式计算这些头和尾嵌入之间的相似度,在计算softmax之前,首先对这两个嵌入进行点积运算。第三步,根据计算出的相似度分数,选取前K个最相似的patch作为每个patch的邻居。这样,就构建了一个动态的有向图,其中每个节点都有其邻居。最后,作者认为仅有头和尾的嵌入是不够的,因此需要充分表示有向边。为此,文章在原有的基础上,根据先前计算出的相似度分数,对头和尾嵌入进行加权求和,以得到有向边的表示。

d59a360971e8d83bbec12f33391ecf7e.png

3.2 利用知识感知注意力融合节点嵌入,并通过Readout获取WSI嵌入

第二部分是基于之前提到的头和尾嵌入组合的。作者利用知识感知机制的注意力来融合这些嵌入,并通过图注意力层来获取动态图的全局表示。

首先,作者利用非线性变换来融合三元组的特征。这个融合过程能够更好地捕捉到三元组中的关系特性。其次,使用softmax来获取在三元组条件下的知识注意力权重,并通过这些权重对邻居的特征进行加权融合。然后,采用双向交互的融合策略来更新每个patch的投影嵌入,可以在全局范围内更好地捕捉patch之间的相互作用。最后,根据这些头嵌入通过一个池化层来直接获得全新的表示,并通过交叉熵损失函数进行相应的分析和分类。

3a87b052ecb43ea3ad29d5d4cb348da0.png

4. 实验和结果

在实验部分,本文主要在四个不同的数据集上进行了实验验证。前三个数据集是公开的TCGA数据集,包括食道癌、肾癌和肺癌。对于每个数据集,作者进行了两个主要的实验:分型实验和分期实验。分期实验包括了1、2、3、4四个不同的阶段,而分型实验则是根据不同癌症的分型指标进行多分类。

除了这三个公开数据集外,作者还与中山大学附属第一医院合作,收集了一个内部数据集。这个数据集包含了冰冻切片的肺癌两类亚型:肺腺癌和鳞状细胞癌。这个内部数据集被作为最终的测试集,以验证所提模型在肺癌分型方面的泛化性能。

具体的实验细节在文章中有详细描述。本文采用的方法与之前的研究是一致的,使用20倍物镜下的256*256的patch进行实验。在主要的实验中,作者使用了预训练的ImageNet模型,但在最后的实验中也尝试了其他特定的模型以验证结果。文章设置的k值为6用于嵌入编码。模型在GPU上完成训练,与常规的WSI分析方法相一致,只需使用一张3090或4090的卡即可完成。

2266e49fa4b95fb268216e9b067b7d71.png

在实验比较中,作者与三种类型的方法进行了对比:常规的MIL方法,包括ABMIL、DSMIL、TransMIL和DTFTMIL;两种无向边的固定图表示,包括GTP和PATCN-GCN;以及应用在WSI级别上的Transformer模型HIPT。

结果显示,所提出的WiKG模型在分型和分期上都表现出了非常好的效果,具体指标都有1-3个点的提升。这表明本文方法不仅在复杂的图结构上有优势,而且在实际的病理学分析中也具有较高的准确性和效率。

具体分析

作者进一步探索了不同的特征提取器对模型性能的影响。选择合适的特征提取器对模型性能是至关重要的,可以发现,领域特定的特征提取器往往能获得更好的效果。具体来说,作者使用了ImageNet预训练的两种模型ViT-Small和ResNet50,在病理图像进行全监督预训练的KimiaNet,以及在所有TCGA数据上进行DINO自监督预训练的ViT-Small。可以发现,两个病理领域特定的特征提取器在最终效果上都带来了质的飞跃,尤其是使用自监督预训练的特征提取器,领域特定的特征提取器表现得更加出色。

然而,由于本文的主要目标是探究图模型的表现能力,所以主要实验都是使用ImageNet的ViT-Small这个特征提取器。尽管如此,本文的实验结果对未来的研究和工作仍具有参考价值,尤其是在选择合适的特征提取器方面。

1b4c9befa56ccfc39cf929e9613e26e9.png

在第二个实验中,文章重点探索了模型在不同编码构造下的有效性能力。作者分别采用了K-NN的Cosine相似度以及欧式距离作为比较基准,结果显示,这些编码构造在性能上都明显优于之前采用的两种动态图建模方式。

f89306f2ffb5c8933beb4803ea367db6.png

在第三个实验中,作者探索了图中连接的零点数量对模型效果的影响。在WSI级别分类任务中,作者发现图表示方法里,每个节点与多少个边相连的这一参数对结果的影响可能并不显著。不论是本文模型还是传统的GCN等图神经网络模型,在这个参数上的表现都没有达到显著的统计学意义。

3b3e9f8b4f08a1853186923a89576a8e.png



本文也深入探讨了图神经网络模型中的过拟合问题,这在长时间训练的情况下尤为常见。可以观察到,像GTP这样的传统模型在面对这个过拟合问题时表现得非常明显。然而,本文提出的WiKG模型不仅在性能上有显著提升,而且在过拟合现象方面也表现得相对稳定。值得注意的是,WiKG模型在参数量和训练时间上都相对较小,这为其在实际应用中提供了更高的效率和可行性。

f424a436b737cb7dc91fa2229fbbf421.png

此外,作者还关注了模型的可解释性。文章选择了两张WSI,并对它们的构边进行可视化。能够观察到,在不同的训练Epoch下,模型对相同的Patch连接会产生不同的表示。这进一步验证了动态图模型的有效性,表明它在捕获数据特征方面具有较高的灵活性和鲁棒性。

07d27755b2c1d9bc8a9d41174cc56922.png


最后,本文探索了模型在自建数据集上的表现,这有助于了解模型的泛化能力。作者观察到一个有趣的现象:许多WSI分析模型,可能都存在泛化能力较差的问题。例如,虽然在某些癌症类型上,如TransMIL,模型的AUC非常高,但在准确率和F1分数上的表现却相当不理想。进一步分析后,作者发现TransMIL模型在识别某些类型的癌症,如鳞状细胞癌,表现非常强,但在肺腺癌的识别上则表现较差。

6b566198212add461241844dd2d35a7a.png

5. 未来工作

作者对于未来的研究方向有以下几点思考:首先,深入探究WiKG模型在WSI级别上的可解释性,特别是与其他图表示方法相比,它在解释性上的优势。其次,作者认识到图表示方法的图池化层可能会对结果产生影响。本文研究中,作者采用了最常见的平均池化结构,但实际上已经有一些研究专注于探索更有效的图池化方式,特别是在WSI级别上,这也是一个值得进一步研究的方向。最后,作者强调了模型在WSI级别分析上的泛化能力,一个泛化能力较差的模型对于实际的临床应用而言是难以接受的,因此探究模型在实际临床部署中的应用具有重要意义。

ea95c87c9f3669a2bd718d33864257b4.png

本篇文章由陈研整理

点击“阅读原文”,

可以查看回放哦!

往期精彩文章推荐

08b37aa83a182106b130feb69e287133.jpeg

‍ 论文解读 | ICLR2024:视觉-语言基础模型作为有效的机器人模仿者

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

9137ebdef6095ca47fb50dd0629d512c.png

我知道你

在看

提出观点,表达想法,欢迎

留言

0efbce0c8d9863036896a363f5a4ccd6.gif

点击 阅读原文 查看视频!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值