Cross-patch Dense Contrastive Learning for Semi-supervised Segmentation of Cellular Nuclei in Histopathologic Images
组织病理学图像中细胞核半监督分割的跨补丁密集对比学习
Paper:https://openaccess.thecvf.com/content/CVPR2022/papers/Wu_Cross-Patch_Dense_Contrastive_Learning_for_Semi-Supervised_Segmentation_of_Cellular_Nuclei_CVPR_2022_paper.pdf
Code:https://github.com/zzw-szu/CDCL
Abstract
我们研究半监督学习问题,使用少量标记数据和大量未标记数据来训练网络,通过开发跨补丁密集对比学习框架来分割组织病理学图像中的细胞核。这项任务的动机是为组织病理学图像分割任务收集标记数据的昂贵负担。我们方法的关键思想是对齐教师和学生网络的特征,从 块级 和 像素级 的交叉图像中采样,以增强特征的 类内紧凑性 和 类间可分离性,正如我们所展示的那样,这是有帮助的用于从未标记的数据中提取有价值的知识。我们还设计了一种新颖的优化框架,结合了一致性正则化和熵最小化技术,在消除梯度消失方面表现出良好的性能。我们在两个公开可用的数据集上评估了所提出的方法,并在广泛的实验中获得了积极的结果,优于最先进的方法。代码可在 https://github.com/zzw-szu/CDCL获取。
Introduction
深度学习、半监督背景介绍…
医学图像分割中的先进半监督学习技术通常基于对抗性训练、伪标记和一致性正则化[10,23,26]。这些现有方法虽然已证明能够利用未标记数据中的知识进行学习,但缺乏利用整个数据集的特征结构,例如不同特征之间存在的相似性或差异。我们解决这个问题的想法是将半监督学习和对比学习结合在一起。对比学习从未标记的数据中选择正负特征对,然后通过将相似特征与不相似特征进行对比来利用其中的知识,从而能够学习不同图像的高级语义结构。
实现我们的想法的关键是正负对的采样质量。现有方法基于逐像素采样,Positive Pairs 由来自相同逐像素特征的扰动的多个视图组成,而 Negative Pairs 在伪标签的指导下由具有不同逐像素预测的特征随机采样 [20, 44]。由于核的边界模糊,但分布明显,伪标签在像素方面并不像预期的那样准确,尽管它们仍然反映了固定区域(例如补丁)中的类分布,这表明更容易正确判断补丁间特征视差而不是像素间。因此,通过利用块间特征差异,深度模型更有可能学习目标分布的更好表示。
有了上述见解,我们开发了一个 Cross-Patch Dense Contrastive Learning Framework(跨补丁密集对比学习框架),从未标记的数据中提取结构信息。具体来说,我们在具有差异大的 Patch 之间采样补丁 Negative Pairs ,并在它们之间密集采样像素级 Negative Pairs。遵循标准的正采样策略,我们的对比学习模块在块级和像素级上强制执行 类内紧凑性 和 类间可分离性[38]。以对比学习模块为核心,我们进一步利用平均教师架构、一致性正则化和熵最小化来获取更高质量的预测和伪标签,用于组织病理学图像中细胞核的半监督分割。我们对两个公开可用的数据集进行了广泛的实验,积极的结果表明我们的方法是有效的,始终优于最先进的方法。我们将贡献总结如下。
-
我们提出了一种有效且通用的跨补丁密集对比学习框架,通过在补丁级别和像素级别强制执行类内紧凑性和类间可分离性,从未标记的数据中提取有价值的知识。
-
我们利用一致性正则化和熵最小化的优势,开发了一种高效的半监督核图像分割算法,该算法在两个公开可用的数据集中优于最先进的方法。
Method
如图 1 所示,所提出的半监督分割方法基于平均教师框架 [36]。学生和教师模型共享相同的架构,由 Extractor 、 Classifier 和 Projector 组成。监督分支(图 1 中的黑色箭头)通过计算预测和真实情况之间的 L s u p L_{sup} Lsup(标准交叉熵损失)来利用标记数据。在无监督分支中,使用对比损失 L c o n t r L_{contr} Lcontr 对 Projector 输出特征进行对比学习,以及使用损失 L c o n s L_{cons} Lcons 和 L L e n t L_{Lent} LLent 对分类器输出预测进行一致性正则化和熵最小化,驱动网络从未标记数据中提取信息。
其中 w w w 是用于平衡各个损失项的影响的加权因子。我们通过将学生模型的权重设置为指数移动平均值(EMA)来更新教师模型,而不是常用的梯度下降技术。该过程可以表述为:
其中 θ i t θ^t_i θit 代表教师模型在第 i 次迭代时的权重,而 θ i s θ^s_i θis 代表学生模型的权重。 α ∈ [ 0 , 1 ] α ∈ [0, 1] α∈[0,1] 是更新的平衡权重。请注意,上述权重的时间集成可以帮助教师产生更准确的预测[36],这有助于学生模型的无监督训练并最终优化分割结果。
Cross-Patch Dense Contrastive Learning
组织病理学图像中细胞核的分布通常是分散的。因此,我们可以将图像划分为多个固定大小的块,每个块包含不同比例的前景和背景像素。考虑到在伪标签的帮助下判断片间特征差异相对容易,我们的跨片密集对比学习模块基于原始逐像素对比学习和逐片对比学习的思想开发,如图2所示。继之前的工作[20,38]之后,该模块由两个阶段组成:正/负对采样和对比损失计算。
Cross-patch Dense Sampling
图 2 显示了所提出的采样策略的概述。同一图像的强增强和弱增强输入分别传递到学生和教师模型中。 Extractor 输出被投影到低维特征图中,我们在块级和像素级上对正/负对进行采样。Projector 可以保留提取特征中的关键上下文信息,这已被证明有利于对比学习[6]。
按照标准的正采样策略,我们从学生模型中选择一个补丁特征,并从教师模型中的相应位置采样其正对应特征。在这两个补丁之间,具有相同位置的像素级特征形成像素级 Positive Pairs。我们的策略在负采样方面有所不同。我们将两个具有大视差的补丁特征视为 Nagative Pairs,然后以交叉补丁密集方式对像素对进行采样。为了测量补丁间特征差异,我们引入了基于伪标签计算的补丁度量。
具体来说,学生模型和教师模型的伪标签 y ^ u s \hat{y}^s_u y^us , y ^ u t \hat{y}^t_u y^ut得到如下:
其中 P u s P^s_u Pus和 P u t P^t_u Put表示学生和教师模型对未标记数据的预测,并且度量称为前景分数 F S FS FS,计算如下:
其中 N N N 是像素总数, N f N_f Nf是所选块中前景像素的数量。 y ^ u \hat{y}_u y^u 相当于 y ^ u s \hat{y}^s_u y^us 或 y ^ u t \hat{y}^t_u y^ut ,具体取决于从学生模型或教师模型获取的补丁。 F S FS FS 表示属于目标类的像素比例。根据 F S FS FS ,我们将这些补丁分为三类:FDP(前景主导补丁, F S FS FS ≥ 0.7)、BDP(背景主导补丁, F S FS FS ≤ 0.3)和MP(混合补丁,0.3 < F S FS FS < 0.7)。标签空间中结构不同的补丁在特征空间中也应该具有不同的分布,因此分别对应于FDP和BDP的两个补丁特征具有较大的差异,并且可以被采样为补丁负对。
由于 F S FS FS 只关注类别比例而忽略空间分布,因此两个图块之间的一对一像素采样只能获得有限的有效像素 Nagative Pairs 。因此,我们采用多对多的方法,将具有大特征差异的两个块之间的像素密集地作为逐像素 Nagative Pairs,这可以提供更强的约束来增加 类间可分离性。请注意,我们再次利用伪标签来过滤假阴性对。此外,由于增加负对可以增强对比学习[6],因此我们维护两个特征库(BDB和FDB,分别代表Background-dominate Bank和Foreground-dominate Bank)来存储在最后几次迭代中处理的patch-wise特征,以保证足够的负面对应物。
Pixel-wise and Implicit Patch-wise Contrastive Loss
在块级和像素级对正/负对进行采样后,我们设计了对比损失,以将正对拉得更近,将负对推开。我们首先针对某个查询像素级特征 q q q 制定对比损失函数,并在 InfoNCE [28] 的基础上进行修改:
其中 s i m sim sim 表示余弦相似度的指数方程, τ \tau τ 表示温度。 k + k_+ k+ 和 k − k_− k− 分别表示 q q q 的正值和负值。 F B FB FB 表示特征库,其类型由 q q q 的来源决定。如果 q q q 来自 FDP,则 F B FB FB 是 BDB,反之亦然。 J q \mathcal{J}_q Jq, k − k_− k− 是一个二进制掩码,定义用于判断负对中两个特征的伪标签是否不同,并据此丢弃假负对。
给定学生和教师模型的特征图 F s \mathcal{F}_s Fs 和 F t \mathcal{F}_t Ft,我们将 ϕ s \phi_s ϕs 定义为 F s \mathcal{F}_s Fs 中的补丁特征,将 ϕ t \phi_t ϕt 定义为 F t \mathcal{F}_t Ft中的位置对应特征。基于 l c o n t r l_{contr} lcontr, ϕ s \phi_s ϕs 的逐像素对比损失定义为:
其中 ϕ h , w \phi^{h,w} ϕh,w 表示 ϕ \phi ϕ 中空间位置 h h h 和 w w w 的逐像素特征, N N N 表示块中的像素数,而 ϕ t h , w \phi^{h,w}_t ϕth,w 是 ϕ s h , w \phi^{h,w}_s ϕsh,w 的唯一正对应项。
通过最小化 l c o n t r ϕ l^{\phi}_{contr} lcontrϕ,网络学习将来自同一类别的像素特征与来自不同类别的像素特征进行对比,因此我们可以获得更好的详细预测。然后,我们在 F s \mathcal{F}_s Fs 的统一像素级总损失中隐式地表达了我们的分片对比学习,其可以表述如下:
其中 N s ϕ N^{\phi}_s Nsϕ 表示 F s \mathcal{F}_s Fs 中的斑块数量, N s B , F N^{B,F}_s NsB,F 为BDP 和FDP 的总数,其内部类别分布相当不平衡。在这种情况下,我们计算 l c o n t r F l^{\mathcal{F}}_{contr} lcontrF 作为每个 BDP 和 FDP 损失的平均值。通过最小化 l c o n t r F l^{\mathcal{F}}_{contr} lcontrF 控制,网络学习将结构相似的补丁特征与差异较大的特征进行对比,从而推动模型在目标分布中做出更好的预测。另外, l c o n t r F l^{\mathcal{F}}_{contr} lcontrF 是当前训练图像(或批次,只需让 F \mathcal{F} F 代表一组特征图)的最终对比损失。在这方面,我们将损失计算的水平从以前的“像素图像/批次”扩展到“像素补丁图像/批次”,旨在更好地利用这些组织病理学核图像的特征结构。
Consistency Regularization
尽管中间特征图上的对比学习可以有效地从未标记数据中学习强特征表示,但它通常无法直接优化分类器的参数。受 FixMatch [34] 及其在分割中的应用 [2, 40] 的启发,我们在分割预测上引入了简化的一致性正则化来克服这个缺点。考虑到教师模型提供了更准确和鲁棒的预测[36],我们将教师的预测设置为目标,并让学生模型收敛到它。对于每个教师的预测 P u t P^t_u Put ,我们计算伪标签 y ^ u t \hat{y}^ t_u y^ut 如下:
未标记数据的一致性损失 L c o n s L_{cons} Lcons由交叉熵计算:
其中 P u s P^s_u Pus 是学生的预测, H \mathcal{H} H 是交叉熵损失函数
Entropy Minimization
预测是指示像素属于每个类别的概率的置信图。它们可以用来生成伪标签,用于指导正/负对采样,并在我们的对比学习模块中发挥重要作用。
继熵最小化[13]及其在分割中的应用[5, 25]之后,我们引入了根据学生的预测
P
u
s
P^s_u
Pus 计算的正则化损失,其公式为:
其中 N N N 和 C C C 代表像素和类别的数量。一致性正则化和熵最小化提高了预测的正确性,而对比学习获得了更可靠的伪标签指导和更好的性能,从而反过来优化了预测的置信度。 L c o n t r L_{contr} Lcontr、 L c o n s L_{cons} Lcons 和 L e n t L_{ent} Lent 的结合旨在促进这种良性循环。
Experiments
Datasets
我们在两个公开可用的数据集(由 DSB 和 MoNuSeg 表示)上评估我们的方法,这两个数据集分别来自 2018 年数据科学碗挑战赛 [3] 和多器官细胞核分割挑战赛 [19]。
DSB 数据集。 该数据集包括来自不同明场和荧光模式的 670 个核图像,其中目标边界也很难识别。
MoNuSeg 数据集。 该数据集由包含 30 张组织病理学图像的训练集和包含 14 张图像的测试集组成,所有这些图像都是来自多个器官的 H&E 染色组织图像,其中目标组织和背景组织之间存在低对比度。
图 3 展示了与 FullSup、SupOnly 和最先进方法的视觉比较。我们观察到,与竞争对手相比,我们的方法对细胞核的分布(数量、位置)和细节(形状、大小)获得了更好的预测,同时也与 FullSup 方法相当,这反映在较少的过度预测(绿色像素)上我们的结果中预测不足(红色像素)。
Conclusion
我们提出了一种新颖的组织病理学图像中细胞核分割的半监督方法,旨在有效、全面地解决有限注释训练数据的固有缺点。所提出的跨补丁密集对比学习模块旨在实现补丁级和像素级的跨图像特征对齐,从而增强整个数据集的 类内紧凑性 和 类间可分离性,使网络能够有效地从未标记的数据中提取知识数据。对网络输出进一步进行一致性正则化和熵最小化,以获得更高质量的预测和伪标签,这为对比学习提供指导并带来更好的分割性能。
上述比较实验和消融研究证明了我们提出的半监督分割方法的有效性。虽然我们的方法仍然无法分割尺度极小的病例,以及目标和背景组织之间对比度极低的病例,如图6所示,但总的来说,用很少量的标记数据,我们的方法可以很好地处理大多数情况。在具有挑战性的示例中,始终优于竞争对手。未来的研究包括在更多组织病理学数据集上测试我们的方法并将其集成到肿瘤微环境分析系统中。