生物医学成像是科学发现的驱动力,也是医疗保健的核心组成部分,并受到深度学习领域的刺激.虽然语义分割算法在许多应用中支持图像分析和量化,但相应的专业解决方案的设计并非易事,并且高度依赖于数据集属性和硬件条件。我们开发了 nnU-Net,这是一种基于深度学习的分割方法,可以自动配置自身,包括任何新任务的预处理、网络架构、训练和后处理。在此过程中的关键设计选择被建模为一组固定参数、相互依赖的规则和经验决策。无需人工干预,nnU-Net 超越了大多数现有方法,包括针对国际生物医学细分比赛中使用的 23 个公共数据集的高度专业化解决方案。我们将 nnU-Net 作为开箱即用的工具公开提供,通过不需要标准网络培训以外的专业知识或计算资源,为广大受众提供最先进的细分。
语义分割将原始生物医学图像数据转换为有意义的空间结构信息,因此在科学发现中发挥着至关重要的作用。同时,语义分割是众多临床应用3,4 的重要组成部分,包括人工智能在诊断支持系统中的应用 、治疗计划支持 、术中辅助 和肿瘤生长监测。对自动分割方法的高度兴趣体现在蓬勃发展的研究环境中,占生物医学领域国际图像分析竞赛的 70%。
尽管基于深度学习的分割方法最近取得了成功,但它们对最终用户的特定图像分析问题的适用性往往是有限的。方法的特定任务设计和配置需要高水平的专业知识和经验,小错误会导致性能大幅下降。特别是在三维 (3D) 生物医学成像中,成像模式、图像大小、(各向异性)体素间距和类别比率等数据集属性差异很大,这个过程可能很麻烦,并且从一个数据集的成功配置很少转化为另一个数据集。调整和训练神经网络涉及众多专家决策,从精确的网络架构到训练计划以及数据增强或后处理的方法。每个相互依赖的子组件都由基本参数控制,例如学习率、批量大小或类采样策略。可用于训练和推理的硬件为整体设置带来了额外的复杂性。正如自动机器学习 (AutoML) 领域的先前研究所提出的,在这个高维空间中对相互依赖的设计选择进行纯粹的经验优化 ,将所需的训练案例和计算资源的数量放大了几个数量级,并且通常只覆盖分割管道的一小部分(例如架构或数据增强), 将其配置的很大一部分留给实验者。此外,将 AutoML 应用于新数据集需要有其自身的一组必需的专家选择,例如,考虑构建一个合理的特定于问题的搜索空间。正如我们对国际生物医学分割挑战现状的分析所表明的那样(结果),这些实际限制通常会给用户在方法设计过程中留下一个手动和迭代的试错过程,该过程主要由个人经验驱动,几乎没有记录,并且经常导致次优的分割管道。
在这项工作中,我们概述了一条新的路径,即生物医学分割中主要由专家驱动的方法配置,而另一侧主要是数据驱动的 AutoML 方法。具体来说,我们在下文中定义了一个配方,它在与任务无关的层面上系统化了配置过程,并在给定新任务时大大减少了经验设计选择的搜索空间。
- 收集不需要在数据集之间进行调整的设计决策,并确定稳健的通用配置(“固定参数”)。
- 对于尽可能多的剩余决策,以启发式规则的形式在特定数据集属性(“数据集指纹”)和设计选择(“管道指纹”)之间建立明确的依赖关系,以允许对应用程序(“基于规则的参数”)进行几乎即时的适应。
- 仅从数据中凭经验了解其余决策(“实证参数”)。
我们对这个配方的实施是在医疗分割十项全能提供的十个数据集上开发和验证的。生成的分割方法,我们称之为 nnU-Net,能够对任意新数据集执行自动配置。与现有的研究方法相比,nnU-Net 是整体性的,即它的自动化配置覆盖了整个分割管道(包括网络架构的基本拓扑参数),无需任何人工决策。此外,nnU-Net 中的自动配置速度很快,包括简单的规则执行和只需做出一些经验选择,除了标准模型训练之外,几乎不需要任何计算资源。最后,nnU-Net 是数据高效的;基于大型和多样化数据池的编码设计选择是应用于训练数据有限的数据集的强烈归纳偏差。
nnU-Net 自动配置的一般适用性在另外 13 个数据集中得到了证明。我们总共报告了 53 个分割任务的结果,涵盖了前所未有的目标结构、图像类型和图像属性的多样性。作为一款开源工具,nnU-Net 可以简单地进行开箱即用的训练,以生成最先进的分割。
Results
nnU-Net 是一种基于深度学习的分割方法,可自动配置自身,包括生物医学领域任何新任务的预处理、网络架构、训练和后处理。nnU-Net 为各种数据集生成的示例分割结果如图1所示:
nnU-Net 会自动适应任何新数据集。图2显示了 nnU-Net 如何系统地解决整个分割管道的配置问题,并提供最相关设计选择的可视化和描述。
nnU-Net development.nnU-Net 的自动配置基于将领域知识提炼为三个参数组:固定参数、基于规则的参数和经验参数。首先,我们收集所有不需要在数据集之间进行调整的设计选择(例如将架构模板设置为 'U-Net-like'),并优化它们的联合配置,以便在我们的开发数据集上实现稳健的泛化。其次,对于尽可能多的剩余决策,我们在 “数据集指纹” 和 “管道指纹” 之间建立明确的依赖关系,“数据集指纹”是一种标准化的数据集表示,包括图像大小、体素间距信息或类比率等关键属性,我们将其定义为在方法设计过程中做出的全部选择。依赖关系以相互依赖的启发式规则的形式进行建模,允许在应用程序时几乎立即执行。举个例子,batch size、patch size 和 network topology 的相互依赖的配置基于以下三个原则。
- 较大的 batch size 允许更准确的梯度估计,因此更可取(在我们的领域中通常不会达到最佳点),但在实践中,任何大于 1 的 batch size 都已经导致了稳健的训练。
- 训练期间较大的补丁大小会增加网络吸收的上下文信息,因此对性能至关重要。
- 网络的拓扑结构应该足够深,以保证有效的感受野大小至少与补丁大小一样大,这样上下文信息就不会被丢弃。
将这些知识提炼成成功的方法设计,可以得出以下启发式规则:“将补丁大小初始化为中位图像形状并迭代减小它,同时相应地调整网络拓扑(包括网络深度、沿每个轴的池化作的数量和位置、特征映射大小和卷积内核大小),直到可以使用至少两个给定 GPU 内存约束的批量大小来训练网络。在线方法中提供了所有启发式规则的详细说明,补充说明 2 中提供了用于推导规则的指导原则的汇编。第三,我们只设置剩余的设计选择,即模型选择和后处理,在应用过程中根据训练数据凭经验决定。我们实施的这个配方(我们称为 nnU-Net)是专门在源自医疗十项全能分割挑战赛的十个开发数据集上开发的。
nnU-Net 应用程序。将 nnU-Net 应用于新数据集时,nnU-Net 的自动配置无需人工干预即可运行。因此,除了要做出的少数剩余经验选择外,除了标准网络训练程序之外,不需要额外的计算成本。nnU-Net 的自动化方法配置从提取数据集指纹开始,然后执行启发式规则。默认情况下,nnU-Net 生成三种不同的 U-Net15 配置:二维 (2D) U-Net、以全图像分辨率运行的 3D U-Net 和 3D U-Net 级联,其中第一个 U-Net 对缩减采样的图像进行作,第二个 U-Net 经过训练以优化前者在全分辨率下创建的分割图。交叉验证后,nnU-Net 根据经验选择性能最佳的配置或集成。最后,如果测量性能增益,nnU-Net 根据经验选择 “非最大组件抑制” 作为后处理步骤。nnU-Net 的自动配置和训练过程的输出是经过充分训练的模型,可以部署这些模型来对看不见的图像进行预测。我们通过将 nnU-Net 的固定、基于规则和经验参数编码的设计选择应用于其他 13 个数据集,展示了其泛化能力。
方法和补充说明 2 中分别提供了对 nnU-Net 背后的方法及其总体设计原则的深入描述。补充说明 6 中提供了 nnU-Net 为所有数据集生成的分段管道。
nnU-Net 可处理各种目标结构和图像属性。我们通过将 nnU-Net 应用于 11 个国际生物医学图像分割挑战(包括 23 个不同的数据集和 53 个分割任务)6,14,16-24 (https://cremi.org/) 来证明其作为开箱即用的分割工具的价值。该选择包括 2D 中的各种器官、器官亚结构、肿瘤、病变和细胞结构,以及通过磁共振成像 (MRI)、计算机断层扫描 (CT)、电子显微镜 (EM) 和荧光显微镜 (FM) 获取的 3D 图像。“挑战赛”是国际竞赛,旨在评估多种算法在标准化环境中的性能9。在所有分割任务中,nnU-Net 仅使用提供的质询数据从头开始训练。从定性上讲,我们观察到 nnU-Net 可以处理数据集属性和目标结构多样性的巨大差异;也就是说,生成的管道配置符合人类专家认为合理或合理的设置(补充说明 3,第 1 节和第 2 节)。nnU-Net 生成的分割结果示例如图 1 所示。
nnU-Net 在一系列不同的任务中优于专用管道。nnU-Net 在一系列不同的任务中优于专用管道。图3概述了 nnU-Net 和竞争挑战团队在所有 53 个细分任务中取得的定量结果。尽管具有通用性,但 nnU-Net 的性能优于大多数现有的细分解决方案,即使后者专门针对相应的任务进行了优化。总体而言,nnU-Net 在 53 个目标结构中的 33 个中树立了新的技术水平,并且表现出与排行榜顶级条目相当或接近的表现。
方法配置中的详细信息对性能的影响比体系结构变体更大。为了更深入地了解当前基于深度学习的生物医学图像分割实践,我们以最近由医学图像计算和计算机辅助干预 (MICCAI) 协会主办的肾脏和肾脏肿瘤分割 (KiTS) 2019 挑战赛中的参与算法为例进行分析25。MICCAI 协会一直主办至少 50% 的年度生物医学图像分析挑战赛9。KiTS 挑战赛有 100 多名参赛者,是 MICCAI 2019 上最大的比赛。第一个观察结果是,AutoML 方法明显没有出现在排行榜上。只有一份提交(100 个项目中排名第 18 位)报告了“通过网格搜索选择一些超参数”(http://results.kits-challenge.org/miccai2019/manuscripts/peekaboo_2.pdf),而手动试错优化代表了不可否认的现状。值得注意的是,这一观察并非 KiTS 所特有;我们不知道在任何生物医学图像分割比赛中使用 AutoML 的成功提交。图 4a 提供了 KiTS 排行榜 (http://results.kits-challenge.org/miccai2019) 的总体总结,揭示了对当前基于深度学习的分割方法设计前景的进一步见解。首先,前 15 种方法源自 2016 年的 (3D) U-Net 架构(参考文献 15,26),证实了其对生物医学图像分割领域的影响。其次,使用相同类型的网络的贡献导致性能分布在整个排行榜上。第三,在检查前 15 种方法时,没有一个常用的架构修改(例如,残差连接 27,28 、密集连接 29,30 、注意力机制 31 或膨胀卷积 32,33 )代表 KiTS 任务良好性能的必要条件。
图4b强调了找到良好方法配置的重要性。它说明了对算法的分析,这些算法都使用与挑战赛获胜作品相同的架构变体,即带有残差连接的 3D U-Net。虽然其中一种方法赢得了挑战,但基于相同原则的其他贡献涵盖了整个评估分数和排名范围。从各自的流程指纹中选择关键配置参数,说明了每个团队在方法配置期间做出的相互依赖的设计选择。参赛者提交的截然不同的配置表明了高维优化问题的潜在复杂性,该问题是通过配置用于生物医学图像分割的深度学习方法而隐含的。
nnU-Net 通过在公开排行榜上设置新的技术水平,实验性地强调了方法配置相对于 KiTS 数据集中架构变化的相对重要性(nnU-Net 在原始挑战结束后提交到排行榜,因此不是原始排行榜分析的一部分。图 4 中分析的方法也列在公开排行榜中。采用普通的 3D U-Net 架构。这一观察结果与我们来自其他 22 个数据集的结果一致(图3)。
不同的数据集需要不同的管道配置。我们提取了 23 个生物医学分割数据集的数据指纹。如图 5 所示,这记录了生物医学成像中特殊的数据集多样性,并揭示了缺乏开箱即用分割算法的根本原因:方法配置的复杂性被以下事实放大:合适的管道设置直接或间接取决于潜在复杂关系下的数据指纹。
因此,被确定为一个数据集(例如 KiTS,见上文)的最佳管道设置可能无法推广到其他数据集,因此需要对每个单独的数据集进行重新优化。nnUNet通过确定稳健的设计决策和显式建模关键的相互依赖关系来应对这一挑战(图2)。
多个任务可实现稳健的设计决策。研究人员可以利用 nnU-Net 的自动方法配置为了分割方法的发展。新颖的想法可以很容易地集成到 nnU-Net 中,从而在多个数据集中进行测试,而无需为每个数据集手动重新配置整个管道。为了展示这种方法的好处,并支持在 nnU-Net 中所做的一些核心设计选择,我们通过系统地修改 nnU-Net 的一些固定参数,系统地测试了常见管道变体的性能。在 10 个不同的数据集中评估了以下变化,并与我们默认的 nnU-Net 配置进行了比较,该配置在这些实验中用作基线。
数据集之间排名的波动性表明,根据数据集的不同,单个设计选择会影响分段性能。结果清楚地表明,在从基于数据集数量不足的评估中得出方法论结论时,需要谨慎。虽然 9 个变体中有 5 个在至少一个数据集中获得了 1 级,但它们都没有在 10 个任务中表现出一致的改进。原始 nnU-Net 配置显示出最佳的泛化,并在聚合所有数据集的结果时排名第一。