用于三维医学图像检测的半监督学习——FocalMix: Semi-Supervised Learning for 3D Medical Image Detection

最新推荐文章于 2024-07-03 12:55:47 发布

置顶 DJ_SIGS

最新推荐文章于 2024-07-03 12:55:47 发布

阅读量4.2k

点赞数 9

分类专栏：图像分割文章标签：计算机视觉机器学习人工智能深度学习图像处理，医学

本文链接：https://blog.csdn.net/NCEPUDJ/article/details/107063942

版权

图像分割专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本文记录下阅读 CVPR2020论文其中的《FocalMix: Semi-Supervised Learning for 3D Medical Image Detection》，更新于2020.7.1 —— 阿波

我把重点都标黄了，看过其他SSL的文章可以直接食用标注部分即可。

论文原文：Semi-Supervised Learning for 3D Medical Image Detection

Contributions

个人觉得本文的主要贡献是:

提出了FocalMix，一种新的半监督学习框架用于三维医学图像检测。其思路还是很明确合理的。
在其变换中使用的扩充方法和图像变化过程，虽然其操作比较繁杂，但是确实合理的利用了病理图像的特征，结合了三维数据的特性提供了一种很好的思路。因为我们使用的图片本身就是病理图像中的病灶部位数据（我个人是这么觉得的，不然在自然图像中很容易翻车），所以在混合时候有其合理性和操作空间。
在像素和锚框两个层次对图像进行混合：参数设置巧妙、过程衔接合理，文中为了提高泛化能力，在公式和参数上的诸多设置都进行了解释。比如扩充、锐化、插值部分，hh，虽然我觉得这里讲的过于顺利，实际可能没这么理想。

Abstract

人工智能技术在医学成像中的应用是医学领域最有前景的领域之一。然而，最近在这一领域的成功很大程度上依赖于大量仔细注释的数据，而注释医学图像是一个昂贵的过程。

在本文中，我们提出了一种名为 FocalMix 的新方法，据我们所知，它是第一个利用半监督学习(SSL)在3D医学图像检测中的最新进展。我们在LUNA16和NLST两个广泛用于肺结节检测的数据集上进行了广泛的实验。

结果表明，我们提出的SSL方法扫描实现了17.3%的实质性改善，比最先进的监督学习方法有400个未标记的CT扫描。

1. Introduction

医学影像在现代医学实践中扮演着重要的角色。该领域的一个重要趋势是利用深度学习(DL)和人工智能(AI)等先进技术来实现自动医学图像分析。之前的工作已经在各种特定任务中显示出了良好的结果，如皮肤癌分类[8]，视网膜眼底图像分析[12]，以及一些初步的实际应用，如[5]。然而，我们认为，这种成功不仅应该归功于最近在深度学习技术方面的进展，还应该归功于大量精心标注的数据。

[8] Andre Esteva, Brett Kuprel, Roberto A Novoa, Justin Ko, Susan M Swetter, Helen M Blau, and Sebastian Thrun. Dermatologist-level classiﬁcation of skin cancer with deep neural networks. Nature, 542(7639):115, 2017.

[12] Varun Gulshan, Lily Peng, Marc Coram, Martin C Stumpe, Derek Wu, Arunachalam Narayanaswamy, Subhashini Venugopalan, Kasumi Widner, Tom Madams, Jorge Cuadros, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. Jama, 316(22):2402–2410, 2016.
[5] Po-HsuanChen, Krishna Gadepalli, Robert MacDonald,Yun Liu, Kunal Nagpal, Timo Kohlberger, Greg S Corrado, Jason D Hipp, and Martin C Stumpe. An augmented reality microscope for real-time automated detection of cancer. In Proc. Annu. Meeting American Association Cancer Research, 2018.

一方面，注释医学图像是一个昂贵和费时的过程。这个过程需要有经验的临床专家阅读检查报告，并结合其他检查结果，有时还需要咨询其他专家。此外，手动注释CT和MRI等3D图像更加困难。更多的信息。另一方面，医院信息系统中存储着大量的原始医学图像。与人工注释的高昂费用相比，检索它们的成本可以忽略不计。因此，能否利用这些注释较少的原始医学图像来提高深度学习模型的诊断准确性，成为一个必要的研究问题。

与此同时，半监督学习(SSL)近年来吸引了大量的研究。大多数最新的SSL方法通常添加一个定义在未标记数据上的辅助丢失术语(例如，一致性正则化术语[30])，或者甚至对标记数据和未标记数据进行线性插值(例如。其中一些方法在图像分类数据集上取得了很大的成功，如CIFA[16]，充分体现了利用未标记数据的潜在价值。

[30] Mehdi Sajjadi, Mehran Javanmardi, and Tolga Tasdizen. Regularization with stochastic transformations and perturbations for deep semi-supervised learning. In Advances in Neural Information Processing Systems, pages 1163–1171, 2016.
[39] Hongyi Zhang, Moustapha Ciss´e, Yann N. Dauphin, and David Lopez-Paz. Mixup: Beyond empirical risk minimization. In6thInternationalConferenceonLearningRepresentations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net, 2018.
[16] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. Technical report, University of Toronto, 2009.

将SSL的最新进展应用于医疗成像问题似乎是一个诱人的方法。然而，相对于已有的SSL文献中被广泛研究的分类任务，人们更关注医学影像中的损伤检测任务，因此许多技术细节尚未被探索。例如，现代的SSL框架通常要求loss函数能够处理软标签(例如，类的平滑概率)，而大多数一阶段的损伤检测模型使用 focal loss [22]，它没有这样的自然扩展。此外，最先进的SSL方法使用平均集成为未标记的数据获取伪标签。然而，很难取检测模型预测的边界盒的平均值。最后但并非最不重要的是，很少有研究涉及到医学图像的数据增强，然而，这几乎是SSL方法取得最近成功不可或缺的组成部分。

[22] Tsung-YiLin,PriyaGoyal,RossGirshick,KaimingHe,and Piotr Doll´ar. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

在本文中，我们将讨论一种名为 FocalMix 的原则性方法，用于定制现代SSL框架以克服上述问题。首先，在第3.1节中，我们提出了一个关于焦点损失的一般性概括，允许使用具有倾斜分布的软目标训练标签（类似于大多数检测模型遇到的离散情况下的类不平衡）。然后，通过实际设计来说明如何扩展用于三维医学图像检测的SSL框架中的基本组件。具体地说，我们提出了一种目标预测策略，通过旋转和翻转来利用增强图像Patch的锚级集合(第3.2节)。此外，结合医学图像检测任务的独特特点，在图像级和目标级对医学图像检测任务进行混合增强(第3.3节)。在本文中，我们主要采用最先进的SSL方法 MixMatch [3] 作为一个运行示例，以提供更清晰、更容易理解的表示。该方法可以毫不费力地转移到其他现代SSL框架(如UDA[37])中。

[3] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. MixMatch: A holisticapproachtosemi-supervisedlearning.InH.Wallach, H. Larochelle, A. Beygelzimer, F. d’Alch´e-Buc, E. Fox, and R.Garnett,editors,AdvancesinNeuralInformationProcessing Systems 32, pages 5049–5059. Curran Associates, Inc., 2019.
[37] Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, and Quoc V. Le. Unsupervised data augmentation. CoRR, abs/1904.12848, 2019.

通过对CT扫描中肺部结节检测的两个广泛使用的数据集进行广泛的实验，我们表明，提出的SSL方法FocalMix，可以大大优于优化的最先进的监督学习方法(第4.2节)。Ablation 研究进一步证明了我们提出的软目标损失函数、用于目标预测的集成方法和两种级别的混合策略的有效性(第4.3节)。此外，结果表明，当已有相当大的注释数据集可用时，FocalMix 仍然可以提高监督学习的性能(第4.4节)。

Ablation study就是你在同时提出多个思路提升某个模型的时候，为了验证这几个思路分别都是有效的，做的控制变量实验的工作。

2. Background and Preliminaries

2.1 Object Detection in 3D Medical Images

本文主要研究三维医学图像检测问题，这是医学图像分析中的一个重要课题。为了检测不同尺度的病变，大多数作品采用基于锚点的检测器，如特征金字塔网络 (FPN) [21]的三维变体。同时， focal loss 被广泛用于克服前景-背景类的极端不平衡[22]。本节将简要介绍这些方法。

[21] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017.
[22] Tsung-YiLin,PriyaGoyal,RossGirshick,KaimingHe,and Piotr Doll´ar. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

在这里插入图片描述
图1:
(a)是一个为锚分配目标的例子。虚线网格表示定义锚框的输出特征映射，网格中的每个 bin 对应于特征映射中的一个点。粉红色的盒子是一个ground-truth边界盒子。橙色的框是正锚，蓝色的框是负锚。
(b)是我们用于目标预测的增强法的一个例子。我们对图像 Patch 使用翻转增强，并用模型预测每个锚点的概率。然后，对 patch 和 anchors 进行逆变换。为了便于演示，我们只展示了两个示例锚，并为每个锚使用一致的颜色。注意，3D图像中的锚也是三维的，为了更好地显示，我们只显示2D切片。

2.1.1 Anchor boxes

锚框是预定义的边界框，密集地平铺在图像上，以匹配目标对象。在[29]之后，锚定框被设置为具有不同的比例和高宽比，以便捕获不同形状的对象。每个锚点对应于检测器输出特征图中的一个像素，并与其接受域共享同一个中心。由卷积层实现的微型网络以滑动窗口的方式对每个锚进行预测。在训练过程中，当且仅当锚盒与某一 ground-truth 边界盒在 union 的交点 (IoU) 上高度重叠时，将锚盒视为匹配目标的正锚。
图1 (a) 显示了一个示例。在推理过程中，网络预测一个 objectness score (又称置信度得分)，并为每个 anchor box 协调偏移量作为输出。[21]特征金字塔网络在多尺度特征图上放置锚点，提高小目标的检测性能。

[29] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.
[21] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017.

2.1.1 Anchor boxes

锚点分配方法导致正锚点相对于负锚点较少，Lin等[22]称之为前背景不平衡。为了减轻这个问题，他们引入了焦点损失focal loss :
在这里插入图片描述
y∈{0,1}是真实锚标签,
p是模型估计锚点为正例的概率
而αt是不同类别的权重因子(即α0和α1,分别对应0类别和1类别)，以平衡正面和负面样本的重要性。
γ是注意力参数。focusing parameter
Pt 的意义可以被认为是预测的置信度，因此Eq.(1) 中的第二项用来降低置信度样本的权重，使模型侧重于不难 (less confident ) 样本。

2.2. Semi-supervised Learning

半监督学习(SSL)旨在利用未标记数据来提高模型性能。在本节中，我们将简要回顾一个名为MixMatch[3]的SSL框架，我们的工作主要是在这个框架上构建的。==MixMatch 不仅是最先进的SSL方法之一，而且还是一个统一框架，它集成了这一领域研究中最成功尝试的精髓 spirits == (例如，熵最小化[11]、一致性正则化[30]和混合增强[39])。本文将MixMatch作为一个典型示例，说明如果可行，如何为医疗成像领域定制通用SSL方法。换句话说，我们的贡献大多与在SSL中取得的进展是正交的。

[3] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. MixMatch: A holisticapproachtosemi-supervisedlearning.InH.Wallach, H. Larochelle, A. Beygelzimer, F. d’Alch´e-Buc, E. Fox, and R.Garnett,editors,AdvancesinNeuralInformationProcessing Systems 32, pages 5049–5059. Curran Associates, Inc., 2019.
[11] Yves Grandvalet and Yoshua Bengio. Semi-supervised learning by entropy minimization. In Advances in neural information processing systems, pages 529–536, 2005.
[30] Mehdi Sajjadi, Mehran Javanmardi, and Tolga Tasdizen. Regularization with stochastic transformations and perturbations for deep semi-supervised learning. In Advances in Neural Information Processing Systems, pages 1163–1171, 2016.
[39] Hongyi Zhang, Moustapha Ciss´e, Yann N. Dauphin, and David Lopez-Paz. Mixup: Beyond empirical risk minimization. In6thInternationalConferenceonLearningRepresentations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net, 2018.

混合匹配包括两个主要部分，未标记数据的目标预测和混合增强。第一个组件需要定义给定数据点(如图像)的一组随机转换，其语义(如类标签)几乎没有变化。在图像分类的例子中，旋转和剪切是两种常用的增强方法。
MixMatch使用当前模型的平均预测集合，在形式上，该模型由θ参数化地将每个未标记训练样本 u 的 K 个扩充实例 uk 作为其标签的“猜测”。
在这里插入图片描述
然后用锐化算子对这些猜测的标签进行进一步变换，作为训练目标。锐化操作符 (用于L个类的第i个) 定义为

其中，T称为温度，控制输出分布的平整度(当T→0时，输出变成一个热向量)。锐化操作隐式强制模型对未标记数据输出低熵预测。一旦有了未标记数据的训练目标，MixMatch 将对已标记数据和未标记数据进一步利用混合增强[39]。更具体地说，给定一个标记 (或未标记) 数据点及其标记 (或预测目标) 即 (x, y)，混合增强产生一个随机线性插值与另一个训练例子(x0, y0)，或标记或未标记，如下所示
在这里插入图片描述
通过以上步骤，我们可以从标记数据和未标记数据中得到一个带有监督信号的增强训练示例集合，然后使用监督目标来训练模型参数。

3. Methodology

在本文中，我们试图利用现代半监督学习方法进行医学图像检测。为了实现这一目标，在第2.2节中介绍的MixMatch框架中，针对病灶检测任务量身定制了两个基本组件: 目标预测和混淆增强 target prediction and MixUp augmentation.。在此之前，我们首先提出焦点损失的通用泛化，这允许我们使用在大多数现代SSL框架中出现的软训练目标来训练检测模型。我们所提议的方法的概述如图2所示。
在这里插入图片描述
图2:我们提出的FocalMix方法的概述。对于一个输入批次，标记图像中锚点的训练目标是根据标注的框来分配的，未标记的用当前模型进行预测，如图下方所示。在对整个批处理应用两层混合后，我们使用所提出的软目标焦损失训练模型。在本文中，为了便于展示，我们只展示了带有3D锚点的每个3D CT扫描的一个切片。

FPN: 一种高效的CNN特征提取方法

3.1. Soft-target Focal Loss

半监督学习通常涉及软训练（例如，等式（8）中的y ）。这在SSL文献中很少被作为一个不确定性提出，因为目前大多数的工作都集中在分类任务上，而包含分类的交叉熵损失自然可以处理软标签。然而，正如在第2.1节中介绍的，最先进的目标检测方法通常使用 focal loss ，在原始交叉熵损失中增加两个加权项，例如公式（1）中的 α(y) 和 β(y, p) = (1−pt)γ （懒得用latex，能看懂就行）。

这两项都依赖于类标记，通过将它们写成 y 的函数来强调，不幸的是，如果y可以取0到1之间的任何连续值，则它们没有简单的扩展 trivial extension。这是阻碍我们直接使用现成的SSL方法的主要因素之一。因此，我们提出的方法将这两个术语推广到软目标的情况下。

第一项最初是为类不平衡而设计的，通常与 class y 的反频率成比例。更具体地说，较少出现的正例的 α 比负例的 α 大，以防止物质占据总损失。在我们的例子中，这个问题相当于有一个软标签的倾斜分布，因此，α(y）最好与 y 的概率密度函数成反比。然而，在模型训练的过程中进行密度估计在计算上是不可行的。因此，我们假设y的密度函数衰减的速率大致与 1/y 相同，并且将0和I处的密度视为超参数，分别用 α0 和 α1表示的交叉验证来确定。在这个假设下，我们可以导出软标签 a(y）的形式 α(y) = α0+ y(α1− α0 )。

第二项 $\left(1-p_{t}\right)^{\gamma}$ 用于降低检测模型训练过程中普遍存在的简单示例(特别是背景 anchors )的重量。我们可以把这个术语解释为预测“置信度” Pt 与目标值之间的差异（如公式1），通过该方法可以在一定程度上衡量训练样本的硬度。从这个角度看，我们可以自然地将这个术语推广到软目标标签，方法是将其重写为模型预测p与其训练目标y之间的绝对差的第γ次幂（ γ-th power），例如 $\beta(y, p)=|y-p|^{\gamma}$ 。

综上所述，为SSL提出的软目标焦点损失为
$L(p)=\left[\alpha_{0}+y\left(\alpha_{1}-\alpha_{0}\right)\right] \cdot|y-p|^{\gamma} \cdot C E(y, p)$

其中 $\log p-(1-y) \log (1-p)$ 为交叉熵损失。我们可以检查，当 y∈{0,1} 时， focal loss 是我们提出的软目标焦损失的一种特殊情况。

3.2. Anchor-level Target Prediction

对于未标记数据的目标预测是用于SSL的传统和现代方法中广泛使用的组件。然而，如何将现有的目标预测方法从分类转化为检测并不是一个简单的问题，因为检测模型输出目标对象的边框，而不是更结构化的类标签。在FocalMix中，我们建议在锚级(anchor level)处理这个问题。

在训练过程中，我们按照计算机视觉中的常见做法，==从原始图像中采样相同大小的patch ==(在我们的实验中为160 × 160 × 160 )。我们还确保了图像patch的边缘长度 (如160) 可以被 FPN 中使用的最大步长 (如16) 整除。因此，图像补丁中的每个锚都可以在旋转或翻转后落入另一个锚的位置。我们将每个补丁的扩展定义为在其上应用这两种类型的软转换。值得一提的是，与2D图像相比，3D医学图像在不同方向上的旋转和翻转有着更丰富的组合（48种不同的组合与8种不同的组合）。然后，利用该模型预测变换后的图像块中每个锚点与目标匹配的概率。然后，我们可以通过逆变换（旋转或向后翻转）得到原始面片中每个锚的一个猜测目标。读者可以在图1中找到一个直观的示例。

如图2所示，我们重复上述数据扩充过程 K 次，并为补丁中的每个锚生成 K 个猜测目标。然后，我们将每个锚的预测目标集合在一起。最后，我们应用（4）中的锚向锐化操作，得到一个给定面片的低熵预测目标，用于模型训练。

3.3. MixUp Augmentation for Detection

混合增强是MixMatch框架中的一个重要组成部分，它鼓励模型在训练示例之间表现线性，以获得更好的泛化性能。vanilla MixUp程序是为图像分类设置而设计的，其中每个图像与一个类标签相关联，而医学图像在我们的任务中被诊断为病变的包围框注释。因此，vanilla MixUp 增强不能直接使用。在本文中，我们介绍了两种适用于医学图像损伤检测的混合方法:图像级混合和物级混合(示例见图4)。
在这里插入图片描述
图4:两种混合方法的说明性示例。左图显示了图像级的混淆，红色箭头指向原始图像中的结节。右图展示了对象级的混淆，我们放大了结节，并将它们定位到每个图像块的中心，以便更好地显示。

图像级混音。难点主要在于如何在混合两幅图像的同时实现训练目标的融合。虽然医学影像检测任务的实际标签是边界盒，但是通过对两组盒的线性插值，我们无法得到像软类那样有意义的分类。相反，我们建议在锚级别上混合训练信号。形式上，给定两个相同大小的医学图像及其训练目标（注释标签或预测目标）对于每个锚，（x，{yi}）和（x0，{y0i}），我们生成一个增强样本（ˆx，{y0}），如下所示。
在这里插入图片描述

图像级混合在损伤检测任务中有更直观的解释，其目的是将损伤从背景纹理中区分出来。锚-锚混合要求模型能够检测到与比平常更强的背景噪音混合的损伤，类似于“高原训练” （altitude training）的想法。

对象级混合。在医学成像任务中，目标（即病变）包含的信息比背景纹理要多得多，但是对象的数量往往是有限的（大多数情况下每个医学图像只有一个病灶）。因此，我们建议通过在每个训练批中混合不同的损伤模式来生成额外的对象实例。换言之，对于训练批中每个图像中的每个对象，我们从当前批中随机抽取另一个对象，将其重新缩放到相同大小，然后以公式（10-12）中相同的方式混合这两个对象。注意，对象只是标记图像的注释框，而对于未标记的图像，具有高预测置信度的预测框被视为检测到的对象。由于所有这些对象都有非常一致的目标（高概率就是一个 positive 的例子），我们不再为了简单而混淆训练目标。。（we no longer mixup training targets for simplicity.）

4. Experiments

我们评估我们提出的半监督框架 FocalMix 在肺结节检测任务。实验在LUNA16数据集上进行，LUNA16数据集是肺结节检测文献中使用最广泛的数据集。我们还使用NLST数据集作为未标记数据进一步评估的额外来源。

LUNA16[31]是LIDC-IDRI数据集[2]的高质量子集。共888个胸部CT扫描，1186个标注大于3毫米的结节。所有的注释都得到至少3(4个)放射科医师的同意。其他混淆的结节和非结节则标记为“无关发现”，在评估时既不计入假阳性，也不计入真阳性。

NLST[35]（国家肺筛查试验）最初是为了比较胸部CT和胸部X射线检查肺癌的有效性而建立的。NLST数据集中大约有75000次CT扫描，这些扫描具有参与者的特征、扫描测试结果、诊断程序等。由于结节位置等注释在该数据集中不可用，我们仅在第4.4节所述的选择过程后将其用作额外的未标记数据集。

Evaluation。在[31]之后，我们使用自由响应接收机工作特性(FROC)和竞争性能度量(CPM)来衡量检测性能。CPM的总得分定义为每次扫描假阳性率为1/8、1/4、1/2、1、2、4和8 FPs时的平均回忆率。尽管一些相关文献在LUNA16数据集上使用了10倍交叉验证来计算评估指标，但在半额外设置中，标记和未标记数据的数量可能在不同的实验中不断变化，这并不十分方便。相反，我们将这个数据集重新划分为533个CT扫描用于训练(60%)和355个CT扫描用于测试(40%)。在半监督学习中使用的标记数据和未标记数据都是从训练集中采样的。

[31] Arnaud Arindra Adiyoso Setio, Alberto Traverso, Thomas DeBel,MoiraSNBerens,CasvandenBogaard,Piergiorgio Cerello, Hao Chen, Qi Dou, Maria Evelina Fantacci, Bram Geurts, et al. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the luna16 challenge. Medical image analysis, 42:1–13, 2017.
[35] National Lung Screening Trial Research Team. Reduced lung-cancer mortality with low-dose computed tomographic screening. New England Journal of Medicine, 365(5):395– 409, 2011.

4.1. Experimental setup

表1显示了具有不同标记数据量的LUNA16数据集上FocalMix的性能。报告的召回率为7个假阳性率以及CPM总得分。请注意，为了公平比较，我们对固定数量的标记数据使用相同的标记数据子集，对所有情况使用相同的未标记数据集，这两种情况都是从训练集中采样的。我们可以得出这样的结论:通过利用400张未标记的原始图像，FocalMix可以在分别使用25,50和100张带注释的CT图像作为标记数据时，始终优于完全监督的基线。当我们有25幅标记图像时，全监督模型只能得到66.6%的CPM评分，而FocalMix将其提高到78.1%，相对提高17.3%。另一方面，在100个标签数据的情况下，尽管全监督模型的CPM已经达到了82.8%，但 FocalMix 仍能大幅提升其性能，绝对提升4.4%。
在这里插入图片描述
表1:LUNA16数据集的主要结果。我们分别使用{25,50,100}标记的CT扫描对FocalMix进行评估。即兴表演。表示CPM在完全监督基线上的改进(括号中显示的相对改进)。

我们还可以从表1中观察到，通过使用400次未标记CT扫描，FocalMix可以获得与使用两倍标记数据量的全监督基线相当的结果。换句话说，仅仅从数据库中收集400个原始CT扫描，其效果与有50个仔细注释的扫描大致相同。此外，有趣的是，我们所提议的SSL方法FocalMix在使用100个标记扫描和400个未标记扫描时的CPM得分接近于使用533个标记扫描时的完全监督学习结果(89.2%)。
在这里插入图片描述
图3:LUNA16上不同数量的未标记数据的性能。我们使用了100张标记过的图像。

图3显示了不同数量的未标记CT扫描的性能。我们可以观察到，CPM得分随着未标记数据数量的增加而持续增长，这证明了在FocalMix中使用未标记数据的有效性。

4.3. Ablation Study

在本节中，我们通过对LUNA16数据集的ablation studies ，研究了在我们提出的半监督方法中不同成分(即损失函数、目标预测方法、混合增强策略)的有效性。由于标记过少的训练数据会导致结果不稳定，我们在接下来的所有实验中都使用了100幅标记过的图像。
在这里插入图片描述
表3:消融研究。模型用100个标记扫描和400个未标记扫描进行训练。Fail 表示一个发散 divergent 的结果。

损失函数：我们提出的软目标焦损通过调整其每个项来适应软目标来产生焦损耗。由于交叉熵损失可以很好地处理软标签。只修改了前两个项，即α(y) 和 β(y, p)。为了研究我们的扩展分别对这两个项的贡献，我们使用“伪硬目标”将提出的损失与其退化版本进行比较。也就是说，概率大于0.5的软目标为正例，其他概率为负。这样，我们就可以在SSL框架中最初的焦点丢失中使用a和B术语。如表3(a）所示，我们可以看到，在伪硬目标（甚至在排除两者的情况下，使用a或B的反生成版本中使用α 或 β都会损害检测性能，这说明了我们设计的软目标泛化对焦损的贡献。

目标预测：在目标预测阶段，我们首先对 K 个不同的增强进行预测，并通过在锚点级别取平均来集成这些预测。为了证明这个集成过程的贡献，我们在表3(b)中报告了 FocalMix 在不同K上的CPM得分。我们可以看到，单次增强进行目标预测时，CPM得分仅为85.9%，而当K次增加到4次时，CPM得分提高1.3%，验证了集成策略的有效性。然而，我们还可以注意到，当K = 4时，性能开始饱和。因此，在整个实验中我们选择K = 4 。

混合增强。在 FocalMix 中，为医学图像设计了两种混合策略:图像级混合和对象级混合。如表3所示，图像级别的混合可以将CPM评分从0.852提高到0.867，而对象级别混合进一步将CPM评分提高到0.872。我们还在图4中演示了一些MixUp示例。直观地说，图像级混淆的目的是鼓励模型在前景和背景之间进行线性操作，而物级混淆鼓励模型检测具有更丰富模式的损伤。

4.4. SSL with More Labeled and Unlabeled Data

在前几节中，我们分析了使用相对少量标记数据的FocalMix的性能。尽管这可能是现实应用程序中最常见的场景，但当有大量训练集可用时，SSL是否还能提高监督学习的性能也是一个有趣的研究问题。此外，标记数据和未标记数据的数据分布通常不匹配。因此，我们还评估了我们提议的SSL框架，使用来自LUNA16的所有533个CT扫描作为标记数据，并使用外部数据库NLST(可能与LUNA16的数据分布不同)来采样未标记数据。

数据的选择：NLST数据集包含约75000个CT扫描，其中大部分不包含结节。因此，我们试图过滤掉这些不相关的图像没有结节。具体来说，我们首先使用LUNA16训练一个3D FPN，对NLST的一个随机子集进行预测，然后挑选出至少有一个高可信度预测结节的CT扫描(阳性结节的阈值设置为0.8)。在选择之后，我们将约3000次扫描保留为无标记的训练数据。

结果：结果如表4所示。我们训练了400个时代的所有模型。当使用所有的533个注释的CT扫描时，我们提出的混淆策略(即(例如，锚层和对象层混淆)单独可以将全监督学习方法的CPM得分从89.2%提高到90.0%。FocalMix通过利用大约3000张没有注释的图片，进一步将这个结果提高到90.7%。

5. Related Work

三维医学图像的检测：由于篇幅有限，我们首先对肺结节的检测方法进行综述。由于可以公开获取数据集，肺结节检测是三维医学图像中最成熟的领域。早期的肺结节探测器使用带有手工特征的机器学习技术，如球形滤波器[36,38,4,1]。近年来，深度学习技术的蓬勃发展使现代目标检测技术成功应用于医学图像检测领域。Ding等[7]提出使用更快的2D R-CNN和3D CNN来更准确地检测结节。另一项研究[20,41,14,19]使用3D区域建议网络[29]或特征金字塔网络[21]直接检测结节。Pezenshk等人[27]和Liu等人[23]进一步提出使用另一种网络，然后再使用3D FPN来减少假阳性。

半监督学习：最近的大多数研究集中在如何将损失项应用到未标记的数据上，以便更好地泛化。伪标签[18]使用置信度最高的预测类作为未标记数据的训练标签。Π-Model[17]和Γ-Model[28]使用一致性正则化项来惩罚不一致的预测。Tarvainen和V alpola[34]建议使用历史参数的移动平均值，用“均值老师”来规范模型。MixMatch[3]和UDA[37]将一致性正则化和现代数据增强技术集成到一个统一的框架中，取得了很大的改进。还有一些工作是通过使用带有图像级标注的额外图像来改进检测模型[33,10]。

医学图像处理中的半监督学习：由于数据注释的困难，SSL在医学图像处理中得到了广泛的应用。Su等人提出了一种利用局部和全局一致性正则化的半监督核分类方法。Ganaye等人[9]和Chen等人[6]也提出了SSL方法来获得更好的脑图像分割结果。Zhou等人[40]通过半监督学习提高了疾病分级和病灶分割的性能。ASDNet[25]采用了一种基于注意力的半监督学习方法来提高医学图像分割的性能。这些之前的工作也局限于分类和分割，而本文关注的是医学影像中一个更重要、更复杂的任务——病灶检测。