[论文阅读]Improving Representation Learning for Histopathologic Images with Cluster Constraints

在这里插入图片描述

论文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_Improving_Representation_Learning_for_Histopathologic_Images_with_Cluster_Constraints_ICCV_2023_paper.pdf
论文来源:ICCV2023
代码链接:: https://github.com/wwyi1828/CluSiam.

摘要:

全幻灯片图像(WSI)扫描仪和计算能力的最新进展极大地推动了人工智能在组织病理学幻灯片分析中的应用。虽然这些进步是有希望的,但目前用于WSI分析的监督学习方法面临着对高分辨率幻灯片进行详尽标记的挑战,这一过程既费时又费力。相比之下,自我监督学习(SSL)预训练策略正在成为一种可行的替代方案,因为它们不依赖于显式的数据注释。这些SSL策略正在迅速弥合与受监督策略之间的性能差距。在此上下文中,我们将引入SSL框架。该框架旨在通过协同WSI分析中的不变性损失和聚类损失,实现可转移表征学习和语义有意义聚类。值得注意的是,在Camelyon16和胰腺癌数据集上的测试证明,我们的方法在下游分类和聚类任务中优于常见的SSL方法。

引言:

组织病理学切片分析仍然是癌症诊断和预后的金标准。近年来,由于数字病理扫描仪的可用性和计算机视觉的进步,研究人员已经看到在病理实验室中迅速采用数字组织病理学幻灯片,彻底改变了计算病理学。虽然数字幻灯片的采用已经加速,但整个幻灯片图像(wsi)的超高分辨率(通常超过40000 × 40000像素)阻碍了进展,这使得直接应用标准视觉模型变得困难。此外,将wsi降采样到更易于管理的放大级别会导致细粒度视觉信息的大量丢失。

为了应对这些挑战,通常通过滑动窗口技术将wsi细分为更易于管理的补丁。然后使用注释标记这些补丁,形成补丁级分类器的训练数据。经过训练的贴片级分类器提取的特征被聚合以推断幻灯片级标签。然而,这种依赖注释的方法有一个明显的缺点。它严重依赖于精确的注释,而获取这些注释的成本很高。注释wsi是一项艰苦且容易出错的任务,需要高度熟练的病理学家逐像素地进行检查。不同组织模式之间的边界在病理学家之间引入了可变性。此外,组织形态固有的可变性往往进一步降低了注释的准确性。因此,获得精确和一致的注释仍然是一场艰苦的战斗,即使训练有素的病理学家投入了大量的专业知识和时间。不准确的注释可能导致不准确和不一致的WSI分析模型。为了减轻不准确注释的影响,噪声感知学习模型出现了。这些方法通过过滤或降低噪声斑块的权重来提高斑块级特征提取器的性能。然而,这些模型仍然受到注释瓶颈的约束。即使为wsi获取嘈杂的注释也需要大量的时间和专业知识,这激发了对无注释技术的需求。它们降低了成本,节省了时间。它们还消除了不准确注释的影响。

在这个充满挑战的领域,无注释技术已经成为一种很有前途的解决方案。通过只需要整个幻灯片标签,它们不仅降低了成本和节省了时间,而且还消除了注释不准确的影响。其中,Chen等人提出了一种利用统一记忆机制直接用大量图像训练卷积神经网络(cnn)的方法。然而,这种方法受限于较低的放大水平,将像素尺寸限制在2 μ m以上。相反,其他研究表明,通过在各种模型设计中采用更高或多尺度放大水平,可以获得更好的结果。弱监督技术作为一种无需注释的方法而广受欢迎,这种方法通过使用幻灯片级标签而不是详尽的补丁级注释来保留高分辨率细节。与详尽的补丁级注释相比,获得幻灯片级标签不那么费力。因此,弱监督学习在组织学切片分类任务中变得特别流行。这些方法采用幻灯片级标签作为幻灯片内所有贴片的弱监督。多实例学习(MIL)模型利用这一点,将载玻片视为正袋或负袋,将补丁视为实例。然而,MIL模型有一些局限性。他们经常忽略整个幻灯片中重要的上下文线索。此外,在自然图像上预训练的现成特征提取器不能充分捕获组织形态。这些缺点促使探索组织切片的自我监督方法。

自监督学习(SSL)使模型能够在不需要标签的情况下学习特征表示。SSL方法正在迅速缩小与监督方法之间的性能差距。但是,SSL通常需要较大的样本大小。但对于高分辨率的组织病理学图像,通过将wsi分割成许多小块,可以减轻这种情况。在计算病理学中,自我监督方法成为无注释WSI分析的一种有吸引力的解决方案。这些方法利用多实例学习来聚合自监督补丁表示。他们已经证明了与最先进的监督方法的性能相匹配的能力,同时通过消除手动注释的需要减少了病理学家的注释负担。SSL的一个关键范例是基于对比的SSL。它们在组织病理学图像分析中可能不是最有效的,因为来自WSI的相邻斑块在形态特征上可能非常相似,这使得它们不适合作为负样本对。这些方法也依赖于大量的负对。为了避免对负对的需要,一些基于知识提取的方法只关注正样本对,这是使用同一图像的增强视图定义的。然而,只关注正对可能会阻止它们学习全局信息,因为它们的目标函数只考虑来自同一图像的增强。

除了SSL表示学习之外,另一个受到关注的关键技术是聚类。聚类是一种无监督学习方法,其中相似的样本被分组以确保簇内内聚和簇间分离。在WSI检索领域,聚类可能是有用的。Wang等人采用K-Means聚类驱动架构,Chen等人将自监督变分自编码器与KMeans算法集成在一起,均用于WSI检索系统。鉴于这些方法在WSI检索中的日益突出,在计算病理学中改进这些聚类算法的需求越来越大。聚类与表示学习有相似之处。这启发了基于聚类的SSL方法,该方法使用来自迭代K-Means聚类算法的伪标签来训练特征编码器。虽然这些方法可以学习有效的图像表示,但它们可能无法提高实际聚类任务的性能,因为它们将图像聚类成数千组,这可能会阻碍它们直接用于组织病理学图像检索。大型集群计数使得识别相关组变得困难。

为了解决这些缺点,我们提出了Cluster-Siam (CluSiam),这是一个将聚类与表示学习解耦的框架,只保留与医学应用最相关和可解释的聚类。CluSiam利用现有的自监督主干来提取表示。我们引入了一个聚类损失来指导主干学习有效的表示,同时为组织病理学图像生成准确的、可解释的聚类分配。(图1).我们的实验表明,CluSiam在下行时优于基线分类任务。此外,我们的自适应聚类算法在聚类中优于K-Means,从而改进了聚类分配。此外,我们的聚类分配器作为表示学习过程的副产物出现,因此在训练完成后只引入了很小的额外计算成本。

在这里插入图片描述

本文的贡献可以总结如下:
•我们提出了CluSiam,一个用于图像表示学习和聚类的SSL框架,结合了不变性损失和聚类损失(图2)
•我们比较了不同SSL框架的性能,并证明CluSiam在多个组织病理学数据集上优于流行的SSL方法。
•CluSiam提供了一种高效准确的方法来聚类组织病理学图像,没有补丁级注释或幻灯片级标签,聚类性能优于数字病理学中广泛使用的K-Means聚类。
在这里插入图片描述

方法:

我们回顾了SimSiam,然后提出了我们的自监督表示学习和聚类方法。
SimSiam回顾:
自监督视觉表示学习是一种学习嵌入函数的方法,该函数将输入图像x映射到表示。这通常是通过使用旨在加强增强视图之间相似性的相似性度量来实现的。从数据转换集T1和T2开始,我们随机采样转换t1、t2 ~ T1、T2,并生成增强视图x1 = t1 (x) 和 x2 = t2 (x)。编码器f用于生成表示y1 = f(x1)和y2 = f(x2),然后将其馈送到投影仪h以生成投影z1 = h(y1)和z2 = h(y2)。与SimSiam中一样,我们将z1传递给预测器g以生成预测p1 = g(z1)。此外,我们交换视图并产生如下对称损失:
在这里插入图片描述

CluSiam:集群约束SSL:
我们在SimSiam架构的基础上添加了一个集群赋值器q,它对h产生的投影进行操作。我们使用h的输出作为q的输入,因为h中的批处理归一化层(BN)稳定了q输入的分布。我们还在q中引入了BN,因为控制输入规模对于使用softmax生成集群分配概率至关重要。

给定一批视图X1, X2,我们产生投影Z1,Z2
然后我们将这些投影连接起来得到Z = concat(Z1, Z2)。集群分配器q将连接的投影Z映射到集群表示A,定义为:
在这里插入图片描述

其中Aij为A的第i行第j列元素,τ为温度,K为表示训练过程中允许的最大簇数的探索空间。这个操作沿着每一行应用,这意味着对于每个数据点i, Aij对所有簇j的和等于1。最后,我们将集群表示映射到集群,如下所示:
在这里插入图片描述

值得注意的是,argmax(A)是不可微的,所以这个操作没有真正的梯度。我们近似梯度类似于直通估计器,只是复制梯度从A到argmax(A),∇argmax(A)C =∇AC,使得反向传播成为可能。Sg(·)表示停止梯度操作,nonzero(·)过滤掉沿行维均为零的向量,k表示非零质心的个数。维度D对应特征维度,与p、z维度一致。

在我们的聚类模块中,与使用类间相似性或其他关注两个不同视图之间不变性的SSL技术的常见聚类方法不同,我们没有对类间相似性或两个不同视图(ai和an+i)之间的赋值施加任何限制。我们的簇损失仅由簇间分离定义。这种分离被定义为:
在这里插入图片描述

重要的是,(5)中的所有张量都是归一化的,所以方程(5)可以解释为表示簇之间的平均余弦相似度。此外,停止梯度操作应用于(4)中的所有元素,以防止聚类分配器崩溃到一个平凡的解决方案,其中所有样本都被分配到相同的集合或聚类。我们可以把A = a1,···,a2n看作一个潜在变量,我们的目标是最小化L(A, Z)。这个优化问题可以通过一种交替的算法来解决,该算法固定一组变量并解决另一组变量。

在本设计中没有引入类内相似性项,因为我们既没有使用像SimCLR这样的对比公式损失函数,也没有使用额外的投影头来引入像BYOL这样的知识蒸馏体系结构。直接优化高类内相似性很容易将所有样本折叠成相同的表示,这是一个微不足道的解决方案,并且不能捕获任何有意义的信息。然而,由于softmax和argmax函数的存在,我们的聚类学习仍然容易崩溃。softmax和argmax函数的硬聚类分配限制了模型在训练期间只更新最大得分聚类。这并不鼓励探索集群分配的不同组合,并且其他潜在的集群分配被排除在反向传播更新之外。因此,在训练过程中,模型很容易陷入琐碎的单簇解决方案中,这种现象被称为“崩溃”。当有效集群的数量减少时,这种情况尤其可能发生。使用基于softmax和argmax的集群分配会加剧这个问题,导致单个集群的快速崩溃。这阻止了模型学习预期的集群结构,进而导致无意义的表示,因为仅使用单个活动集群无法有效地优化集群损失。聚类分配任务可以看作是一个决策过程,在这个过程中,聚类分配者决定哪些样本属于同一个聚类。在这个决策过程中,在勘探和开采之间取得平衡至关重要。探索是指尝试不同的行动,以更多地了解环境及其相关的损失,而开发是指选择目前已知的具有最低预期损失的行动。为了防止由于只对概率值最高的神经元进行持续更新而导致聚类崩溃,我们通过添加Gumbel噪声[23]将随机性引入决策过程。甘贝尔噪声是从甘贝尔分布中抽样的随机变量。它在离散的动作空间中被证明是有用的,在离散的动作空间中,模型必须在有限的一组动作之间做出选择,就像我们的集群分配任务一样。通过用(6)代替(3),聚类赋值器可以基于概率探索不同的聚类组合,从而更多地了解不同的聚类组合及其相关损失。
在这里插入图片描述

其中G表示甘贝尔分布。因此,可以使用复合损失函数有效地训练CluSiam,如式(7)所示。在式(7)中,α作为超参数,调节权值的大小。在我们的实现中,我们默认设置α = 0.5。
在这里插入图片描述

实验:

在我们的实验中,我们评估了我们提出的模型在两个临床相关的全幻灯片图像数据集上的性能:Camelyon16[32]和胰腺癌数据集[43]。为了从wsi中提取具有代表性的图像斑块,我们首先去除背景,并采用滑动窗口技术从幻灯片的组织区域以20倍的放大水平(0.5µm/像素)生成大小为224×224的斑块,斑块之间没有重叠。Camelyon16数据集是一个公开可用的数据集,旨在检测乳腺癌的转移。它包括正负两类幻灯片,由271张训练图像和129张测试图像组成。在应用我们的补丁提取算法后,我们在20倍放大下为该数据集获得了大约260万个训练补丁和120万个测试补丁。胰腺癌数据集包括三个类别:阴性(背景类别)、肿瘤性和阳性。该数据集包括104张训练幻灯片和39张测试幻灯片,产生大约30万个训练和8.3万个测试补丁。

在我们的研究中,我们将我们提出的CluSiam方法与监督模型和几种常用的SSL架构作为基准进行了比较。所有SSL模型以及监督模型都使用ResNet18[20]主干进行了50次epoch的训练,批大小为512。训练的超参数被设置为尽可能与具有可比设置的原始研究中指定的默认值相同。对于监督模型,我们使用交叉熵损失训练了一个贴片分类器。由于正类和负类之间的极度不平衡,我们简单地重新加权损失函数,以避免在监督训练中预测负类的偏差。从ResNet18骨干网中提取所有特征为512维向量。
详细的超参数设置可以在附录中找到。需要注意的是,不同的体系结构通常包含不同的图像增强技术、优化器和超参数。因此,由于固有的配置差异,基线方法之间的比较可能不完全公平。我们的方法(CluSiam)使用与SimSiam相同的超参数设置,这允许在这两种体系结构之间进行直接和公平的比较。作为评估的度量,我们采用了两个下游任务:聚类和分类。

聚类:

在聚类任务中,我们使用Rand Index (RI)来评估聚类算法的性能。使用不同的表示和聚类算法对性能进行了比较(表1)。重要的是,我们的聚类分配器的输出与K-Means等传统方法不同。与K- means不同,K- means为每个patch提供了一个硬的集群分配,我们的分配器输出了一个K维向量。这种结构在生成集群分配时提供了比argmax的典型使用更大的灵活性。这种概率输出使我们的方法在聚类中具有更大的适应性,特别是与来自K-Means的刚性分配相比。我们在图3中可视化了仅仅使用argmax生成的两个wsi的集群分配,以及它们各自的基本事实。
在这里插入图片描述

分类:

对于分类任务,我们使用准确率和ROC曲线下面积(AUC)指标评估模型性能。我们使用两种多实例学习技术将补丁级预测聚合到幻灯片级预测:最大池(Max)和双流多实例学习(DSMIL)。考虑到MIL模型的最优超参数可能会根据各种SSL方法学习到的表示而有所不同,我们对学习率[1e-2, 1e-3, 1e-4]和权值衰减[1e-2, 1e-3, 1e-4]进行网格搜索,得到每个MIL模型的9个超参数组合。这确保了优化每个方法设置后的公平评估。MIL模型训练了50个epoch,采用5 epoch预热和余弦退火学习率计划。为了为每个表示选择最佳检查点,我们将训练集分成75%的训练分区和25%的验证分区。选择具有最高验证集性能的检查点,以便在搁置测试集上进行最终评估(表2和3)。

消融实验:

为了研究CluSiam模型核心组件的影响,我们对Camelyon16数据集进行了消融研究。我们用不变性损失项、聚类损失项和甘贝尔噪声的不同组合创建并训练了几个模型变体,以评估它们的影响。
停止梯度操作对于防止我们的模型崩溃至关重要,类似于它在SimSiam中的作用。此外,在分配聚类时考虑甘贝尔噪声是至关重要的。如果没有这种噪声,聚类分配器将在训练早期崩溃,将所有样本分配到一个聚类。这种崩溃状态相当于SimSiam训练,因为单个集群删除了计算集群损失Lcluster所需的非对角线元素。在这种情况下,来自Lcluster的梯度变为零。然而,通过在聚类分配中引入随机性,噪声可以防止更新只集中在最可能的聚类维度上,从而防止早期崩溃。停止梯度和噪声一起使我们的模型摆脱了这些琐碎的单簇解,从而实现了Linv和Lcluster的有效联合优化。如表4所示,CluSiam优于其他模型。我们观察到联合模型的聚类分配器坍塌,其中一个维度始终主导其他维度。这可能是因为只有最大的维度接收到更新,不断扩大其规模,并导致一个占主导地位的集群。联合模型被期望反映SimSiam的表现,因为它的训练动态应该与分配者崩溃后的SimSiam相同。但是,与SimSiam相比,它的性能较差。这种差异可能源于集群分配器在崩溃之前为随后的纯SimSiam训练提供了次优初始化。

在我们对引入SimSiam的新模块进行消融研究之后,我们深入研究了原始SimSiam组件在确保培训稳定性方面的关键作用。重点关注的一个主要领域是集群分配器输入的规模,因为它可能会显著影响这种稳定性。SimSiam投影仪在其线性层之间穿插BN层,并以BN层结束,这可能是聚类模块有效性的基础。为了从经验上评估控制输入缩放的作用,我们在两个不同的投影仪上设计了一个实验。第一个投影仪,起源于SimSiam,以BN层结束。第二个投影仪,来自BYOL,以线性层结束。我们开始用CluSiam模型中的BYOL变体替换simsiam风格的投影仪,从而创建了CluSiam模型,并将集群分配器模块集成到BYOL架构中。CluBYOL最初使用byol式投影仪进行训练。随后,我们使用了simsiam风格的投影仪,并为CluBYOL模型进行了另一轮培训。值得注意的是,使用byol式投影仪的两种情况都会导致坍缩,类似于表4所示的联合模型,主要出现一个集群。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

为了进一步分析聚类模块的行为,我们检查了探索空间大小的影响,表示为k。当引入Gumbel噪声时,一些样本显示出留在聚类-中具有最高的输出值,同时也具有高概率过渡到附近或类似的集群。一些难以区分的样本可能在多个质心上以接近相等的概率分配。K值越大,聚类越精细。相反,当K很小时,实现明确的聚类变得困难。例如,将K设置为3,集群分配器可以将一些难以区分的样本分配到第三个集群中,与前两个集群的距离大致相等。当K设为2时,赋值器只能将样本放入两个簇中的一个。重要的是,当K = 1时,模型本质上变成了SimSiam,因为它的损失函数和反向传播与SimSiam中的损失函数和反向传播是等价的。在这种情况下,集群分配器缺乏通过将样本分配到不同的集群来区分样本的灵活性。
在这里插入图片描述

在我们的实验中,我们通过训练两个探索空间为K = 10和K = 100的模型来评估K对模型行为的影响。使用Top-1 KNN分类器的F1分数进行补丁级性能评估,两个模型显示出相当的分类性能,如图4所示。尽管在分类上有这种相似性,但它们的聚类行为却截然不同。K = 10的模型显示出更多的聚类数量和更大的聚类计数和Rand指数波动。相比之下,K = 100的较大勘探空间允许分配者更快地稳定在更确定的分配上。这种差异强调了K对CluSiam聚类的影响。具体来说,当K=10时,集群数量和Rand指数波动更大。这种有限的探索空间阻止了高度细粒度的集群分配。

相比之下,探索空间更大的K=100为精细化的聚类操作提供了更多的粒度,使分配器能够在更确定的分配上快速稳定下来。当K=100时,集群数也变得更加一致。这些观察结果突出了K对CluSiam聚类动态的影响。

在这里插入图片描述
在这里插入图片描述

结论:

在本文中,我们介绍了CluSiam,一种集成了聚类约束的SSL技术,以增强组织病理学图像的表示学习。通过巧妙地分离集群间实例,同时调整集群内视图,CluSiam平衡了相似性和差异性。与基线方法相比,它在下游分类和聚类任务方面有了实质性的改进。此外,CluSiam提供了一种有效的方法来分析组织病理学图像,而无需手动注释。

了解更多论文内容,详见公众号
在这里插入图片描述

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值