TumorCP: A Simple but Effective Object-LevelData Augmentation for Tumor Segmentation

okimaru

已于 2024-03-26 14:56:12 修改

阅读量753

点赞数 16

分类专栏：深度学习文章标签：计算机视觉

于 2024-01-22 20:09:01 首次发布

本文链接：https://blog.csdn.net/okimaru/article/details/135755015

版权

深度学习专栏收录该内容

35 篇文章 0 订阅

订阅专栏

文章介绍了一种名为TumorCP的数据增强方法，专为医学图像分析中的肿瘤分割设计。通过在线随机操作，TumorCP在肾肿瘤分割任务中表现出色，尤其在低数据情况下能显著提升性能。该方法易于实现且成为新的基线，为医学图像分割领域的数据效率学习提供了新思路。

摘要由CSDN通过智能技术生成

Abstract

众所周知，深度学习模型需要大量数据。因此，在医学图像分析中，迫切需要数据高效的技术，因为收集有良好注释的数据既昂贵又耗时。受最近复兴的“复制-粘贴”增强方法的启发，我们提出了一种简单而有效的针对肿瘤分割的对象级数据增强方法TumorCP。TumorCP是在线和随机的，为肿瘤的主体、位置、外观和形态提供了无限的增强可能性。在肾肿瘤分割任务上的实验表明，在肿瘤Dice上，TumorCP比强基线高出7.12%。

此外，加上图像级数据增强，它在肿瘤骰子上比目前最先进的技术高出2.32%。进行全面消融研究以验证TumorCP的有效性。

同时，我们证明了TumorCP可以在极低数据的情况下带来显著的改善。仅用10%的标记数据进行评估，TumorCP显着提高了21.87%的肿瘤Dice。据我们所知，这是在医学成像领域探索和扩展“复制-粘贴”设计的第一个工作。代码可从https://github.com/YaoZhang93/TumorCP获得。

关键词:数据效率·肿瘤分割·数据增强

1 Introduction

2 Method

图1所示。TumorCP的管道示意图。从数据集中对源图像和目标图像进行采样。概率为pcp, TumorCP执行一次Copy-Paste，步长依次为2,3,4,5，最后到6;否则，直接转到步骤6。在步骤3中，每个转换都有自己的调用概率(ptrans)。底部展示了两个使用对象级数据增强执行复制-粘贴的示例。

TumorCP是一种用于肿瘤分割的在线随机增强过程。它的实现简单明了。如图1所示，给定一组训练样本D，其概率为(1−pcp)， TumorCP不做任何事情;否则，TumorCP对一对图像进行采样(xsrc;xtgt) ~ D，并进行一次复制粘贴。设Osrc为xsrc上肿瘤的集合，Vtgt为xtgt上器官的体积坐标的集合，T为随机数据变换的集合，每一个变换都有一个概率参数ptrans。为了完成一次复制-粘贴，TumorCP首先对肿瘤o ~ Osrc，一组转换(s) τ ~ T和目标位置v ~ Vtgt进行采样，然后将τ (o)居中于v以替换原始数据和注释。为了充分发挥TumorCP的优势，我们精心设计了两种肿瘤复制粘贴模式:患者内复制粘贴和患者间复制粘贴。同时，我们用几个对象级转换增强了复制粘贴功能，得到了丰富的增强。

2.1 TumorCP’s augmentation

为了研究患者间方差对TumorCP的影响，我们定义了两个基本设置:1)如果源图像和目标图像相同，即来自同一患者，则为intra-patient Copy-Paste (intraCP); 2)如果源图像和目标图像不同，则为inter-patient Copy-Paste (inter-CP)。从数据分布的角度来看，由于其强度与数据整体一致，因此首选intra-CP，但这限制了数据的多样性。从数据多样性的角度来看，inter-CP是受欢迎的，因为它可以利用其他患者的新背景和前景，但它也带来了分布差异。令人惊讶的是，我们在第3.2节中通过经验表明，在消融研究中，cp间明显优于cp内。

复制粘贴转换。从简单的复制-粘贴开始构建，我们自然地通过合并四个不同的对象级转换来扩展它，这些转换由不同的目标驱动，如下所示。详细的实现在附录中进行了总结。

空间变换解耦了环境，提高了形态多样性。在固定获取的CT图像中，肿瘤总是与周围的视觉环境一起出现。虽然图像级空间增强在视角方面增加了数据的多样性(例如，镜像和轻微旋转)，但它仍然作为一个整体处理图像，保留了前景和背景之间的耦合。因此，该模型可以寻找并倾向于过度拟合可信但事实上不相关的周围线索。

注意，简单的复制粘贴已经解决了这个问题，通过最基本的空间变换/移动提供新的背景。我们通过应用i)刚性转换(包括缩放、旋转和镜像)和ii)弹性转换(使肿瘤变形)来进一步增加形态学多样性。图1显示了转化肿瘤的例子。

•伽马变换增强对比度，提高强度多样性。给定一个肿瘤，我们在保留整个强度范围的情况下，应用伽马变换来调整其强度分布。一方面，随机采样伽马参数增强了肿瘤强度的多样性;另一方面，幂律非线性增强了局部对比，便于肿瘤识别。

•模糊变换改善纹理多样性。我们使用高斯滤波器作为模糊变换。直观上，不同sigma值的高斯滤波器可以滤除噪声，在一定程度上平滑肿瘤。对受噪声干扰的底层纹理进行聚合，可以间接增加相对高级纹理的纹理多样性。

整个管道可以与图像级增强结合在一起。值得一提的是，所有的实例增强过程都是在线和随机的，这为肿瘤在受试者内部或跨受试者的位置和出现带来了无限的可能性。

2.2 Intuitions on TumorCP’s Effectiveness

如前所述，TumorCP有两个目标:1)增加数据多样性，2)学习高级和抽象肿瘤的不变表示。数据多样性随着肿瘤的新组合而增加，其周围环境也随着增强而生成。为了学习高级信息，我们讨论了TumorCP的三个特性来解释其有效性。

通过上下文不变预测消除背景偏差。如前所述，获取的医学图像的语义上下文是固定的。

卷积神经网络(CNN)不可避免地会将周围的视觉环境与物体本身一起进行卷积。这可能会使模型偏向于看似合理但实际上与肿瘤无关的线索，从而增加过度拟合的风险。

通过随机和在线的空间转换，TumorCP为肿瘤提供了通往珍贵的独立区域的通道，从而为肿瘤周围环境提供了无限的可能性。它使模型的预测在不同的视觉环境中保持不变，并消除了背景偏差。

通过变换不变预测改进了泛化性。为了成功分割，模型应该同时捕获高级语义信息和低级边界信息。通过随机和在线的Gamma & Blur变换，TumorCP可以生成不同大小、形状、颜色和纹理的肿瘤，这增加了类内差异。它要求模型从数据中捕获黄金语义。换句话说，它使模型的预测在不同的数据转换(可能类似于实际数据)中保持不变，并提高了泛化性。

过采样的行为。数据不平衡是一个普遍存在的问题。

典型的解决方案通常是根据类分布重新加权损失函数或重新采样训练数据。在这项工作中，背景、器官和肿瘤的分布极不平衡。从这个角度来看，TumorCP就像一个数据重采样器，以很小的成本显著增加了肿瘤的增殖程度

3 Experiments and Discussion

3.1 Experiment settings

我们在KiTS19[6]上评估了TumorCP, KiTS19是一个公开的肾肿瘤分割数据集。我们将发布的210张图片随机分成包含168张图片的训练集和包含42张图片的验证集。由于计算资源有限，如果没有指定，我们主要在验证集上报告消融研究结果。请注意，这个验证集是未增强的和不可见的，即既不用于调优超参数，也不用于监视训练过程。我们在所有实验中都使用Sørensen-Dice系数(Dice)得分，它衡量模型的预测ypred和真实ytrue的重叠程度，公式为Dice =jytrue \ ypredj=jytrue [ypredj]。报告了所有患者的Dice评分的平均值和标准差。

我们使用公开可用的最先进的nnUNet代码库进行实现，其中包括数据预处理，领先的图像级增强管道以及顶级性能模型。它几乎超过了所有生物医学图像分割基准[7]。本文研究的是一种通用的肿瘤分割增强方法，因此数据集和运行模型的选择与我们的目标是正交的。TumorCP可以免费推广到其他分割模型和肿瘤分割数据集。

所有实验都是在Nvidia V100 GPU上进行的，对3d full nnUNet进行500次训练，而不是nnUNet默认的1000次训练。训练的批大小为2。在训练过程中，每个epoch需要250次迭代，这意味着需要对250批数据进行采样和学习。模型训练中的其他设置保持默认设置。读者可以参考[7]和代码库链接了解更多细节。

3.2 Ablation Study

消融研究

3.3 Towards extremely low-data regime

最后，我们通过一些额外的消融证明了TumorCP在极低数据条件下的潜力。特别地，我们从与之前相同的训练集中随机抽取10%的数据。然后，我们训练了三个模型，noDA, ImgDA和TumorCP?+ ImgDA分别在10%的数据上，然后在同一验证集上进行评估。表3显示了结果。在此设置下，我们的方法可以将noDA提高21.87%，据我们所知，这是前所未有的，令人信服地证明了TumorCP在数据效率学习方面的有效性。它打破了使用复杂方法或策略的趋势，同时在低数据的肿瘤分割方面取得了可喜的结果。

4 Conclusion and Future Works

我们工作的关键贡献是TumorCP的提出和全面研究，这是一种简单但有效的肿瘤分割的对象级数据增强。大量的实验证实了我们的方法的显著有效性。除了在肿瘤Dice中超越当前肾肿瘤分割技术2.31%之外，我们还证明了TumorCP在极低数据方案中的潜力。我们更愿意将我们的肿瘤cp称为新的基线，因为它不涉及任何复杂的技术，也不涉及广泛的超参数调整，同时达到了最先进的水平。此外，TumorCP没有直接处理跨cp设置中的分布不匹配，但仍然获得了很好的性能。未来的工作可以很容易地将TumorCP扩展到其他医学分割任务，而无需进行重大修改，值得进一步提高最先进的准确性。