基于神经网络的脑肿瘤分割

最新推荐文章于 2024-04-03 17:14:23 发布

思影科技

最新推荐文章于 2024-04-03 17:14:23 发布

阅读量1.4k

点赞数 1

文章标签：神经网络深度学习计算机视觉

本文提出了一种基于深度神经网络的全自动脑肿瘤分割的方法。所提出的网络适用于胶质母细胞瘤（低级别和高级别）的MR图像。就其本质而言，这些肿瘤几乎以任何形状、大小和对比度出现在大脑的任何地方。因此促使我们探索一种机器学习解决方案，该解决方案可基于灵活、高容量的深度神经网络（DNN），同时具有极高的效率。我们探索基于卷积神经网络（CNN）的不同架构，即专门适用于医学图像数据的DNN。

我们提出了一种不同于传统计算机视觉中使用的CNN结构。我们的CNN同时提取了局部特性和全局特性。此外，与CNN的大多数传统用途不同，我们的网络的最后一层，是对全连接层的卷积实现，能够达到40倍的速度。我们还描述了一个两阶段训练程序，该程序可以解决与肿瘤标记不平衡相关的问题。最后，我们探索了一种级联结构，其中基本CNN的输出被视为后续CNN的输入。BRATS测试数据集报告的结果表明，我们的体系结构比目前公布的最先进水平提高了30倍以上。本文发表在Medical Image Analysis杂志。

1.前言

仅在美国，据估计，2015年诊断出23000例新的脑肿瘤。虽然胶质瘤是最常见的脑肿瘤，但对于预期寿命为几年的患者，它们的侵袭性较低（即低级别），对于预期寿命不超过2年的患者则更具侵袭性（即高级别）。

虽然手术是治疗脑肿瘤最常用的方法，但放疗和化疗可以用来减缓无法物理切除的肿瘤的生长。磁共振成像（MRI）能够提供大脑的详细图像解剖结构，是诊断脑肿瘤最常用的测试之一。并且精确的脑肿瘤分割可以提高预后，提高预测和治疗效率。

虽然一些肿瘤如脑膜瘤很容易分离，但其他肿瘤如胶质瘤和胶质母细胞瘤很难定位。这些肿瘤（连同周围的水肿）通常呈弥漫性，对比度差，并延伸触角状结构，使其难以分割。分割脑肿瘤的另一个困难是，它们几乎可以以任何形状和大小出现在大脑的任何地方。与X射线和计算机断层扫描（CT）图像不同，MR图像中体素值的比例未标准化。根据所用MR机器的类型（1.5、3或7T）和扫描协议（视野值、体素分辨率、梯度强度、b0值等），相同的肿瘤在不同医院扫描时可能最终具有截然不同的灰度值。

健康的大脑通常由三种组织组成：白质、灰质和脑脊液。脑肿瘤分割的目标是检测肿瘤的位置和肿瘤区域的浸润，即增强的肿瘤组织（有无血管化）、坏死组织和水肿（肿瘤附近肿胀）。这是通过与正常组织相比识别异常区域来实现的。由于胶质母细胞瘤是浸润性肿瘤，其边界通常模糊，难以与健康组织区分。作为解决方案，通常采用一种以上的MRI模态，例如T1（自旋-晶格弛豫）、T1对比（T1增强）、T2（自旋-自旋弛豫）、质子密度（PD）对比成像、扩散MRI（dMRI）和流体衰减反转恢复（FLAIR）脉冲序列。这些模态之间的对比使每种组织类型表现为几乎唯一的特征。

大多数自动脑肿瘤分割方法使用人工分割提取的特征（Farahani等人，2014；Menze等人，2014）。这些方法实现了一类经典的机器学习的固定流程，首先提取特征，然后将其提供给分类器，分类器的训练过程不会影响这些特征的性质。特征表示的另一种方法是直接从数据中学习越来越复杂的特征层次。深度神经网络已被证明在学习此类特征层次结构方面表现出色（Bengio等人，2013）。在这项工作中，我们应用这种方法来学习适用于脑肿瘤分割任务的特征层次结构，该方法可结合MRI模态中的信息。

具体而言，我们研究了几种适应图像数据的DNN，报告了它们的优点、缺点和性能。尽管CNN最早出现在20多年前（LeCun等人，1998年），但由于其在ImageNet大规模视觉识别挑战中的破纪录表现（Krizhevsky等人，2012年），CNN最近已成为计算机视觉界的支柱。虽然CNN早已成功地应用于分割问题（Alvarez等人，2012年；Long等人，2015年；Hariharan等人，2014年；Ciresan等人，2012），但之前的大部分工作都集中在非医学任务上，其中许多涉及不太适合医学图像或脑肿瘤分割的架构。我们初步工作是使用卷积神经网络进行脑肿瘤分割以及使用BRATS第14届研讨会提出的其他两种方法。然而，这些结果是不完整的，需要更多的探究（第2节对此进行了详细说明）。

在本文中，我们提出了一些用于处理脑肿瘤分割的特定CNN架构。我们的架构展示了CNN构建和训练技术的最新进展，如最大输出（Goodfello等人，2013b）隐藏单元和输出（Srivastava等人，2014）正则化。我们研究还考虑了肿瘤局部形状及其背景的几种结构。

许多机器学习方法的一个问题是，它们执行像素分类时不考虑标签的局部依赖性（即，给定输入图像，分割标签在条件上是独立的）。为了考虑这一点，可以使用结构化输出方法，如条件随机场（CRF），但对于这些方法，在计算上非常耗时。或者，可以通过将初始CNN的像素概率估计作为DNN的某些层的附加输入来建模，形成级联架构。由于卷积是一种有效的运算，这种方法比实现CRF快得多。

我们实验分析集中在MICCAI脑肿瘤分割（BRAT）挑战2013数据集（Farahani等人，2014），从而使我们能够直接和定量地与各种其他方法进行比较。

我们在这项工作中的贡献有四个方面：

我们提出了一种全自动方法，其结果目前在BRAT 2013排名第二；

分割大脑，我们的方法耗时25秒到3分钟，比大多数最先进的方法快一个数量级。

我们的CNN实现了一种新的双通道架构，它学习大脑的局部细节以及更大的全局特征。

我们还提出了一个两阶段训练过程，我们发现这对于处理标签分布不平衡问题至关重要。这些成果的细节在第3.1.1节和第3.2.4节中进行了描述。我们采用了一种新的级联架构，作为结构化输出方法的有效的替代方案。这些模型的详细信息见第3.1.2节。

2. 相关工作

正如Menze等人（2014）所指出的，在过去几十年中，致力于自动脑肿瘤分割的研究显著增加。这一观察结果不仅强调了对自动脑肿瘤分割工具的需求，还表明该领域的研究仍在进行中。脑肿瘤分割方法（特别是用于MRI的方法）可以大致分为两类：基于生成模型的方法和基于判别模型的方法（Menze等人，2014；Bauer等人，2013；Angelini等人，2007）。生成模型在很大程度上依赖于关于健康和肿瘤组织外观的特定领域的先验知识。组织外观难以表征，现有的生成模型通常将肿瘤识别为偏离正常（或平均）大脑的形状或信号（Clark等人，1998）。通常，这些方法依赖于将3D MR图像配准脑图谱或从几个健康大脑计算的模板后获得的解剖模型（Doyle等人，2013）。Prastawa等人（2004）提出了一种典型的MR脑图像生成模型。鉴于ICBM脑图谱，该方法将大脑与图谱对齐，并计算健康组织（白质、灰质和脑脊液）的后验概率。然后通过定位后验概率低于特定阈值的体素来发现肿瘤区域。应用后处理步骤以确保良好的空间规则性。Prastawa等人（2003年）也将大脑图像配准到图谱上，以获得异常的概率图。然后在此图上初始化活动轮廓，并迭代，直到后验概率的变化低于某个阈值。已经提出了许多活动轮廓方法（Khotanlou等人，2009年；Cobzas等人，2007年；Popuri等人，2012年），所有这些方法都依赖于左右脑对称特征或基于对齐的特征。由于将具有肿瘤的大脑与模板对齐可能具有挑战性，一些方法同时执行配准和肿瘤分割（Kwon等人，2014；Parisot等人，2012）。

其他用于脑肿瘤分割的方法使用判别模型。与生成建模方法不同，这些方法利用了很少的大脑解剖结构的先验知识，而是主要依赖于提取大量低级别图像特征，直接基于这些特征与给定体素标签之间的关系建模。这些特征可以是：原始输入像素值（Havaei等人，2014年；Hamamci等人，2012年）、局部直方图（Kleseek等人，2014；R.Meier等人，2013年）、纹理特征（如Gabor滤波器组（Subbanna等人，2013；2014年），或基于对齐的特征，如图像间梯度、区域形状差异和对称性分析（N.Tustison和Avants，2013年）。还使用了经典的判别学习技术，如支持向量机（Bauer等人，201 1；Schmidt等人，2005；Lee等人，2005）和决策树（Zikic等人，2012）。基于2012年、2013年和2014年版的MICCAI-BRAT挑战表明，依赖随机森林的方法是最准确的（Menze等人，2014年；Gotz等人，2014；Kleseek等人，2014）。

判别模型的一个共同点是，它们依赖于手工分割的特征来实现传统的机器学习建模。对于这些方法，假设输入特征具有足够高的识别能力，被训练的分类器将健康组织与非健康组织分开。基于人工的特征的方法的一个弊端是，当与许多传统的机器学习技术一起使用时，它们通常需要计算大量的特征，以便精确。这会使它们的计算速度变慢，而且在内存方面也要求较高。更有效的技术使用较低数量的特征，使用维数减少或特征选择方法，但特征数量的减少通常以降低精度为代价。

从本质上讲，许多手工特征利用非常通用的边缘相关信息，对脑肿瘤领域没有特定的适应性。理想情况下，人们希望将特征组合并细化为更高级别的任务。最近，初步调查表明，使用深度CNN进行脑肿瘤分割是一种非常有效的方法（参见Davy等人（2014）的BRATS 2014挑战论文；Zikic等人（2014年）；Urban等人（2014））。所有三种方法都将3D MR图像分成2D（Davy等人，2014；Zikic等人，2014）或3D块（Urban等人，2014），并训练CNN预测其中心像素类别。Urban等人（2014）和Zikic等人（2014年）实施了一种相当常见的CNN，由一系列卷积层组成，每个层和最大输出层之间采用非线性激励函数。我们在这里的工作扩展了Davy等人（2014）提出的初步结果，使用了双通道架构，我们在这里将其用作模块构建。

在计算机视觉中，基于CNN的分割模型已广泛地应用于自然场景标记。对于这些任务，模型的输入是来自彩色图像的RGB通道。Pinheiro和Collobert（2014）的工作使用基本的CNN对每个像素进行预测，并通过将其作为第二个CNN模型的输入中的额外信息来进一步改进预测。其他工作（Farabet等人，2013年）涉及几个不同的CNN以不同分辨率处理图像。通过整合从所有CNN学习到的信息进行最终每像素类预测。为了产生平滑的分割，使用图像的更全局的超像素分割对这些预测进行正则化。与我们的工作一样，最近的其他工作也在网络的最后一层进行了卷积运算，以扩展用于语义场景分割的传统CNN架构（Long等人，2015）。在一般医学成像领域，使用CNN进行分割的工作相对较少。然而，Huang和Jain（2013）最近的一些工作已经使用CNN来预测电子显微镜图像中神经组织的边界。在这里，我们探讨了一种与上述各种方法相似的方法，但是在脑肿瘤分割的背景下。

3 我们的卷积神经网路方法

由于BRATS数据集中的大脑缺乏三维分辨率，我们考虑从轴向角度逐层进行分割。因此，我们的模型按顺序处理每个2D轴向图像（切片），其中每个像素与不同的图像模态相关联，即：T1、T2、T1C和FLAIR。与大多数基于CNN的分割模型一样（Pinheiro和Collobert，2014；Farabet等人，2013），我们的方法通过处理以像素为中心的M×M面来预测像素的类别。因此，我们的CNN模型的输入X是具有多种模态的M×M 2D图像。

用于构建CNN架构的主要构建块是卷积层。几个层可以堆叠在一起，形成一个特征层次结构。每个层可以被理解为将特征从其前一层提取到其所连接的层次结构中。单个卷积层将一组输入平面作为输入，并产生一定数量的输出平面或特征图作为输出。每个特征图可以被视为特定空间局部非线性特征提取器（其参数是学习的）响应的拓扑排列图，以滑动窗口方式相同地应用于输入平面的每个空间邻域。在第一卷积层的情况下，各个输入平面对应于不同的MRI模态（在典型的计算机视觉应用中，各个输入面对应于红色、绿色和蓝色通道）。在后续层中，输入平面通常由前一层的特征图组成。

计算卷积层中的特征图（见图1）包括以下三个步骤：

1 卷积核

每个特征Os映射一个内核（或多个，在最大输出的情况下）。特征图Os的计算如下：

其中Xr是第r个输入通道，Wsr是通道子核，∗是卷积运算，bs是偏置项。换言之，对每个特征图执行的仿射运算是R个不同的二维N×N卷积滤波器（每个输入通道/模态一个）的应用加上偏置项的总和，偏置项按像素添加到每个生成的空间位置。虽然该操作的输入是M×M×R三维张量，但所考虑的空间拓扑是原始脑体积的X-Y轴平面中的二维拓扑。

图1.显示单个特征图的计算的单个卷积层块。输入图像块（此处为7×7）与一系列内核（此处为3×3）进行卷积，然后是最大输出和最大池化。

传统的图像特征提取方法依赖于固定的方法（有时采用卷积的形式与线性滤波器组，如Gabor滤波器组），而卷积神经网络成功的关键是其学习单个特征图的权重和偏差的能力，从而产生数据驱动、标准、特定任务的密集特征提取器。这些参数通过与误分类误差相关的损失函数上的随机梯度下降进行调整，通过反向传播算法有效地计算梯度（Rumelhart等人，1988）。

必须特别注意卷积运算对边界像素的处理。在整个体系结构中，我们采用了所谓的有效模式卷积，这意味着对于小于N/2的像素位置不计算滤波器响应,远离图像边界的像素。以M×M与 N×N的卷积滤波器作为输入，将产生Q×Q输出，其中Q=M− N+1。在图1中，M=7，N=3，因此Q=5。请注意，核函数的大小（空间宽度和高度）是超参数，必须由用户指定。

2 非线性激活函数：

为了获得输入的非线性变换特征，一个按元素的非线性应用于核卷积的结果。这种非线性有多种选择，如S形、双曲正切和校正线性函数（Jarrett等人，2009年），（Glorot等人，2011）。

最近，Goodfello等人（2013b）提出了一种最大输出的非线性激活函数，这已被证明在对显著特征建模时特别有效。最大输出特征与多个内核相关联。这意味着每个最大输出映射Zs与K个特征映射相关联：{Os, Os+1, ..., Os+K−1}。在图1中，最大输出映射与K＝2个特征映射相关联。最大输出特征分别对应于每个空间位置在特征图O上取最大值：

其中i、j是空间位置。因此，最大输出特征等同于使用凸激活函数，但其形状是自适应的，并取决于核取的值。

3、最大池化：

该操作包括在每个特征映射的子窗口上获取最大特征（神经元）值。这可以形式化如下：

其中p确定最大池窗口大小。子窗口可以重叠也可以不重叠。最大池化操作会缩小特征映射的大小。这由池化大小p和步长超参数控制，该参数对应于池化子窗口所在的水平和垂直增量。设S为步长值，Q×Q为最大合并前特征图的形状。最大池化操作的输出大小为D×D，其中D=（Q− p）在图1中，由于Q=5，p=2，S=1，最大池运算结果为D=4。此操作的目的是为局部平移引入不变性。该次采样程序在其他应用中也很有效（Krizhevsky等人，2012）。

卷积网络能够提取越来越复杂的特征层次，这使得它非常吸引人。这是通过将卷积层的输出特征映射作为后续卷积层输入通道来实现的。

从神经网络的角度来看，特征映射对应于一层隐藏单元或神经元。具体而言，特征图中的每个坐标对应于单个神经元，其感受野的大小对应于核的大小。内核值还表示该层神经元与前一层神经元之间连接的权重。实践中经常发现，学习的核可用于边缘检测器，每个核被调谐到不同的空间频率、尺度和方向，这适用于训练数据的统计。

最后，为了执行分割标签的预测，我们将最后一个卷积隐藏层连接到卷积输出层，然后是非线性（即，不执行合并）。需要注意的是，出于分割目的，传统的CNN不会产生有效的测试，因为输出层通常是完全连接的。通过在最后使用卷积，我们有一个有效的实现，整个大脑在测试时的预测速度将快45倍。卷积使用的核数与不同的分割标签一样多（在我们的例子中为五个）。因此，每个核充当来自一个分割标签的组织的最终检测器。我们使用softmax非线性，将核卷积结果归一化为标签上的多标称分布。具体地说，假设a是给定空间位置的值向量，它计算出softmax（a）=exp（a）/Z，其中

是一个正规化常数。更多细节将在第4节中讨论。

3.1 架构

到目前为止，我们对CNN的描述提出了一种简单的架构，对应于多个卷积层的单个堆栈。该配置是计算机视觉文献中最常用的实现架构。然而，人们可以想象其他可能更适合手头任务的架构。

在这项工作中，我们通过使用不同层的特征映射的串联作为构成CNN的另一种操作，探索了各种体系结构。此操作允许我们构造具有多个计算路径的架构，每个计算路径可用于不同的目的。我们现在描述我们在这项工作中探索的两种类型的体系结构。

3.1.1 双通道架构

该结构由两条流组成：一条具有较小的7×7感受野的通路，另一条具有较大的13×13感受野。我们将这些流分别称为局部路径和全局路径。这种架构选择的动机是，我们希望像素标签的预测受到两个方面的影响：该像素周围区域的视觉细节及其更大的“背景”，即大致上图像块在大脑中的位置。

完整的架构及其细节如图2所示。我们将此架构称为TwoPathCNN。为了连接两条路径的顶部隐藏层，我们使用两层作为局部路径，第二层使用3×3个内核。虽然这意味着每个通路顶层特征的有效感受域是相同的，但全局通路的参数化更直接和灵活地模拟了同一区域的特征。然后，将两条路径的特征图的连接馈送到输出层。

图2.双路径CNN架构（双路径CNN）。

该图显示了经过两条卷积运算路径的图像块输入。局部和全局路径中的特征图分别以黄色和橙色显示。用于生成这些特征图的卷积层在图中用虚线表示。绿色框体现了整个模型，在以后的体系结构中，该模型将用于表示双路径CNN。

3.1.2 级联架构

到目前为止所描述的CNN的一个缺点是它们彼此独立地预先规定每个分割标签。这与文献中的大量分割方法不同，这些方法通常提出分割标签的联合模型，有效地建模空间紧密标签之间的直接依赖关系。一种方法是在标签上定义条件随机场（CRF），并执行平均场消息传递推理以产生完整的分割。在这种情况下，给定位置处的最终标签有效地受到模型关于该位置附近的标签是什么的信念的影响。

另一方面，这种联合分割方法中的推理通常比通过CNN的简单前馈传递在计算上更昂贵。如果要在日常实践中使用自动脑肿瘤分割，这是应该考虑的一个重要方面。

这里，我们描述了CNN架构，既提高了CNN的效率，又更直接地模拟了分割中相邻标签之间的相关性。这个想法很简单：因为我们希望最终预测受到模型对附近标签值的信念的影响，所以我们建议将第一个CNN的输出概率作为第二个CNN层的附加输入。同样，我们通过依赖卷积层的级联来实现这一点。在这种情况下，我们简单地将第一个CNN的输出层与第二个CNN中的任何层连接起来。此外，我们对两个CNN使用相同的双通道结构。这实际上对应于两个CNN的级联，因此我们将此类模型称为级联架构。

在这项工作中，我们研究了三种级联架构，它们在第二个CNN的不同级别连接第一个CNN输出：

输入串联：在这种架构中，我们将第一个CNN的输出直接提供给第二个CNN。仅被视为输入贴片的附加图像通道。细节如图3A所示。我们将此模型称为InputCascadeCNN。

局部路径连接：在该架构中，我们在局部路径中向上移动一层，并在第二个CNN中执行到其第一个隐藏层的连接。细节如图3B所示。我们将该模型称为LocalCascadeCNN。

预输出级联：在最后一种架构中，我们移动到第二个CNN的末尾，并在其输出层之前执行级联。这种架构很有趣，因为它类似于CRF中单次平均场推理（Xing等人，2002）的计算，CRF的成对势函数是输出核中的权重。从这个角度来看，第一个CNN的输出是平均场的第一次迭代，而第二个CNN输出将是第二次迭代。与常规平均场的区别在于，我们的CNN允许一个位置的输出受其先前值的影响，而卷积核在第一个和第二个CNN中不相同。细节如图3 c所示。我们将该模型称为MFCascadeCNN。

图3，三种级联架构

3.2 训练

3.2.0.1.梯度下降

通过将卷积网络的输出解释为分割标签分布的模型，自然训练准则是最大化我们训练集中所有标签的概率，或者等效地最小化负对数概率用于每个带标签的大脑。

为此，我们遵循随机梯度下降方法，在每个大脑中的随机子集中重复选择标签Y和ij，计算该小批量图像块的平均负对数概率，并对CNN参数（即所有层的核）执行梯度下降步骤。

仅基于图像块的一小部分进行更新可以避免每次更新都需要处理整个大脑，同时为学习提供足够可靠的更新。在实践中，我们通过创建一组小批量的较小脑图像块数据集来实现这种方法，并将相应的中心分割标签作为目标。

为了进一步改进优化，我们实施了所谓的动量策略，该策略在过去已被证明是成功的（Krizhevsky等人，2012）。动量的概念是使用瞬时平均梯度来抑制优化速度：

其中wi代表迭代i处的CNNs参数，∇wi是wi处损失函数的梯度，V是初始化为零的积分速度，α是学习速率，μ是动量系数。动量系数在训练期间逐渐增加。在我们的实验中，初始动量系数设置为μ=0.5，最终值设置为μ=0.9。

此外，每个历元的学习速率α都会降低一个因子。初始学习率设置为α=0.005，衰减因子设置为10−1.

3.2.0.2. 两阶段训练

脑肿瘤分割是一个高度数据不平衡的问题，其中健康体素（即标记0）占总体素的98%。其余2%的病理体素中，0.18%属于坏死（标签1），1.1%属于水肿（标签2），0.12%属于非增强（标签3），0.38%属于增强肿瘤（标签4）。从真实标签中选择图像块会导致模型被健康图像块覆盖，并在训练CNN模型时造成问题。相反，我们最初构建图像块数据集，使所有标签都是等概率的。这就是我们所说的第一个训练阶段。接着，第二阶段，我们考虑了数据的不平衡性质，并仅对输出层进行重新训练（即保持所有其他层的核固定），使标签的分布更具代表性。通过这种方式，我们可以两全其美：大部分容量（较低层）以平衡的方式使用，以说明所有类的多样性，同时输出概率得到正确校准（由于使用数据中类的自然频率重新训练输出层）。

3.2.0.3. 正则化

成功的CNN往往是具有大量能力的模型，这使得它们在我们这样的环境中很容易过度拟合，而在这种环境中，显然没有足够的训练示例。据此，我们发现正则化对于获得良好结果很重要。在这里，正则化有几种形式。首先，在所有层中，我们限制核权重的绝对值，并应用L1和L2正则化来防止过拟合。这是通过将正则化项添加到负对数概率（比如

，其中λ1和λ2分别是L1和L2正则化项的系数））来实现的。我们还使用了一个用于早期停止的验证集，即当验证性能停止改善时停止训练。验证集还用于调整模型的其他超参数。读者应注意，模型的超参数（包括是否使用L2和/或L1系数）是通过在参数范围内进行网格搜索来选择的。选择的超参数是模型在验证集上表现最佳的参数。

此外，我们使用了Dropout（Srivastava等人，2014），这是一种最近的正则化方法，通过在计算CNN的隐藏层时随机添加噪声来工作。这是通过将每个隐藏或输入单元乘以0（即掩蔽）与乘以特定概率（例如0.5）来实现的。这使得神经网络学习“自身”有用的特征，因为每个单元不能假设同一层中的其他单元也不会被屏蔽，并共同适应其行为。在测试时，单位被乘以1减去被屏蔽的概率。更多详情，请参见Srivastava等人（2014）。

考虑到我们的模型具有大量参数，有人可能会认为，即使使用了我们的正则化策略，2013年BRATS的30个训练大脑也太少，无法防止过度拟合。但正如结果部分所示，我们的模型具有很好的通用性，因此不会过拟合。其中一个原因是，每个大脑都有200个2d切片，因此，我们的模型有大约60 0个2d图像可供训练。我们还将提到，就其本质而言，不同患者的大脑MRI图像非常相似。由于这些图像的种类远低于真实图像数据集（如CIFAR和ImageNet）中的种类，因此需要较少数量的训练样本。

3.2.0.4. 级联架构

为了训练级联结构，我们首先用前面描述的两阶段随机梯度下降过程训练TwoPathCNN。然后，我们固定TwoPathCNN的参数，并将其包含在级联ar体系结构中（无论是InputCascadeCN、LocalCascadeCNN还是MFCascadeCCNN），然后使用类似的过程训练其余参数。然而，应该注意，为了使第一个CNN输出的空间大小与第二个CNN的层匹配，我们必须向第一个CNN提供更大的输入。因此，第二个CNN的训练必须在较大的图像块上进行。例如，在InputCascadeCNN（图3A）中，第一个模型的输入大小为65×65，这导致输出大小为33×33。只有在这种情况下，第一个CNN的输出才能与第二个CNN输入通道级联。

4 实施细节

我们的实现是基于Pylearn2库的（Goodfello等人，2013a）。PYLERN2是一个开源机器学习库，专门研究深度学习算法。它还支持使用GPU，这可以大大加快深度学习算法的执行。

由于CNN能够从头开始学习有用的功能，我们只应用了最小的预处理。我们采用了与2013年BRATS挑战赛冠军Tustison等人相同的预处理（Menze等人，2014）。预处理遵循三个步骤。首先，去除1%的最高和最低强度。然后，我们将N4ITK偏差校正（Avants等人，2009）应用于T1和T1C模式。然后在每个输入通道内通过减去信道的平均值并除以信道的标准偏差对数据进行归一化。在后处理方面，采用了一种基于连通分量的简单方法来去除预测中可能出现的扁平斑点，因为大脑靠近头骨的明亮角落。

不同体系结构的超参数（每层的内核和最大池大小以及层数）如图3所示。超参数使用网格搜索和验证集上的交叉验证进行调整（见Bengio（2012））。选择的超参数是模型在验证集上表现最佳的参数。对于最大池化，我们始终使用1的步长。这是为了在全图像预测期间保持每像素精度。我们在实践中观察到，全局路径中的最大池化不会提高准确性。我们还发现，向体系结构添加额外的层或通过向卷积块添加额外的特征映射来增加模型的容量并不能提供任何有意义的性能改进。

偏差被初始化为零，但soft-max除外，我们将其初始化为标签频率的对数。

在测试时，我们在GPU上运行代码，以利用其计算速度。此外，输出层的卷积特性允许我们在测试时进一步加速计算。这是通过输入完整图像而不是单个图像块来完成的。因此，可以扩展所有层的卷积以获得整个图像的所有标签概率p（Y ij|X）。通过这种实现，我们能够在使用TwoPathCNN模型的泰坦黑卡上以25秒的时间对每个大脑进行分割。事实证明，这比我们在每个像素提取一个图像块并对整个大脑单独处理时快45倍。 MFCascadeCNN模型、LocalCas-cadeCNN模型和InputCascadeCN模型的预测平均分别需要1.5分钟、1.7分钟和3分钟。

5 结果

实验是在2013年脑肿瘤分割挑战赛（BRATS2013）获得的真实患者数据上进行的，作为MICCAI会议的一部分（Farahani等人，2014）。BRATS2013数据集由3个子数据集组成。训练数据集，包含30名患者受试者，所有受试者均具有像素准确的基本事实（20名高级别肿瘤和10名低级别肿瘤）；测试数据集包含10个（所有高级别肿瘤）和leader-board数据集，其中25个患者受试者（21个高级别和4个低级别肿瘤）。没有为测试和引线板数据集提供基本事实。数据集中的所有大脑都有相同的方向。对于每个大脑，存在四种模式，即T1、T1C、T2和Flair，它们是共同注册的。训练大脑提供了五个分割标记，即非肿瘤、坏死、水肿、非增强型tu-mor和增强型肿瘤。图4显示了数据和基本事实的示例。总的来说，该模型迭代了大约220万例肿瘤斑块（包括所有4个亚肿瘤类），并遍历了320万例健康斑块。如前所述，在第一阶段培训期间，从所有五个类引入模型的示例分布是均匀的。

图4，从左到右的前四幅图像显示了用作各种CNN模型的输入通道的MRI模式，第五幅图像显示水肿（绿）、增强肿瘤（黄）、坏死（红）和非增强肿瘤（蓝）的真实标签。

请注意，由于执行评估的系统和标记数据的质量存在问题，我们无法使用BRATS 2014数据集。由于这些原因，旧的BRATS 2014数据集已从官方网站上删除，在提交本手稿时，BRATS网站仍然显示：“BRAT 2014的最终数据即将发布”。此外，我们甚至进行了一项实验，用2014年的旧数据集训练模型，并对2013年的测试数据集进行预测；然而，性能比本文中提到的结果差。出于这些原因，我们决定将重点放在BRAT 2013年的数据上。

如第3节所述，由于数据集中的MRI体积不具有各向同性分辨率，且三维空间的间距在数据中不一致，因此我们使用2D切片。我们探索了3D信息的使用（通过将三维视为额外的输入通道，或通过构建从每个视图获取正交切片并对相交中心像素进行预测的架构），但这并没有提高性能，也使我们的方法非常慢。

注意，正如Krizhevsky等人（2012）所建议的，我们通过翻转输入图像来应用数据增强。与Zeiler和Fergus（2014）的报告不同，它并没有提高我们模型的整体精度。

通过将分割结果上传到在线BRATS评估系统，可以对测试集上的模型性能进行定量评估（Farahani等人，2013）。在线系统提供如下定量结果：肿瘤结构分为3个不同的肿瘤区域。这主要是由于实际的临床应用。如Menze等人（2014）所述，

肿瘤区域定义为：

（a）整个肿瘤区域（包括所有四个肿瘤结构）。

（b）核心肿瘤区域（包括除“水肿”外的所有肿瘤结构）。

（c）增强肿瘤区域（包括“增强肿瘤”结构）。

对于每个肿瘤区域，Dice（与F测量相同），灵敏度和特异性计算如下：

（a）整个肿瘤区域（包括所有四个肿瘤结构）。

（b）核心肿瘤区域（包括除“水肿”外的所有肿瘤结构）。

（c）增强肿瘤区域（包括“增强肿瘤”结构）

对于每个肿瘤区域，Dice（与F测量相同），灵敏度和特异性计算如下：

其中P表示预测标签，T表示实际标签。我们还注意到，对于所讨论的肿瘤区域，预测为阳性和阴性的体素子集为T1和T0，P1和P0同理。在线评估系统还为提交评估的每个方法提供排名。这包括发表于（Menze等人，2014年）的2013年BRATS挑战的方法，以及没有参考资料的匿名未发表方法。在本节中，我们报告了不同CNN架构的实验结果。

5.1.双通路CNN架构

如前所述，与传统CNN不同，双通路CNN体系结构有两条路径：专注于细节的“局部”路径和更专注于整体的“全局”路径。为了更好地理解全局和局部的联合训练如何提高性能，我们报告了每个通路的结果以及单独训练时每个通路输出的平均结果。我们的方法还通过在第3.2.0.2节中讨论的两个阶段中进行训练来处理问题的非平衡性质。为了查看两个阶段训练的影响，我们报告了有和没有两个阶段的结果。我们将仅由局部路径（即传统的CNN体系结构）组成的CNN模型称为LocalPathCNN，将仅由全局路径组成的CNN模型称为GlobalPath CNN，模型平均了局部和全局路径（即LocalPathCNN和Global-PathCNN）作为平均CNN。第二个训练阶段是通过附加‘∗’标记架构名称。由于第二阶段的训练具有实质性的效果，并且总是提高性能，因此我们仅在第二阶段报告GlobalPathCNN和AverageCNN的结果。

表1给出了这些变化的定量结果。该表包含具有一个和两个训练阶段的双路径CNN、具有一个或两个训练相位的普通单路径CNN（即LocalPathCNN）和GlobalPathCNN，遵循全局路径结构和每个训练的单路径模型的输出平均值（AverageCNN∗). 毫不奇怪，单一路径和一个训练阶段的CNN得分最低，排在最后。使用第二个训练阶段显著提升了该模型性能，秩从15提升到9。此外，该表显示，与单独训练每个路径和平均输出相比，局部和全局路径的联合训练产生了更好的性能。一种可能的解释是，通过联合训练局部和全局路径，该模型允许两种路径共同适应。事实上，平均CNN性能比局部CNN更糟糕。在未分类模型中，性能最好的方法是双路径CNN∗秩为4。

此外，在某些情况下，增强区域的结果不如核心区域和完整区域的结果准确。这主要有两个原因。首先，边界通常是弥散的，增强的肿瘤和非增强的组织之间没有明确的界限。这会给预测标签、实际标签以及模型带来问题。第二个原因是模型了解了它在实际看到的东西。由于标签是由不同的人创建的，并且边界不清楚，每个用户对增强肿瘤的边界有略微不同的解释，因此有时我们实际上会看到过厚的增强肿瘤。

图5示出了局部和全局路径中的低级特征的表示。如图所示，局部特征包括更多边缘检测器，而全局路径中的边缘检测器是更局部化的特征。然而，将CNN所学的中高级功能可视化仍然是一个非常公认的研究问题。然而，我们可以通过可视化不同模型的分割结果来研究这些特征对预测的影响。图7显示了由基本模型的不同变体产生的验证集中两个受试者的分割结果。如图所示，两阶段训练过程允许模型从更真实的标签分布中学习，从而消除模型在一个训练阶段训练产生的误差。此外，通过使用两条路径，该模型可以同时学习全局特征和局部细节特征。这提供了在全局范围内校正标签以及在局部范围内重新识别肿瘤的精细细节的优势，与导致更平滑边界的单路径架构相比，产生了更好的分割。两种训练路径的联合训练和两个训练阶段可以取得更好的效果。

图5.从模型的第一层随机选择的滤波器。从左到右，该图分别显示了全局路径和局部路径第一层的特征可视化。局部路径中的特征包括更多的边缘检测器，而全局路径包含更多的局部特征。

5.2 级联架构

我们现在讨论三种级联体系结构的实验，即InputCascadeCNN、LocalCascadeCNN和MFCascadeCn。表2提供了每种体系结构定量结果。图7还提供了由每个架构生成的分割的视觉示例。

图7.轴向视图中CNN结构的视觉结果。对于每个子图，从左到右的顶行显示T1增强、常规单路径CNN、具有两个训练阶段的常规CNN和双路径CNN模型。从左到右的第二行显示了实际、LocalCascadeCNN模型、MFCascadeCN模型和InputCascadeCNN。颜色代码如下：水肿（绿）、增强型肿瘤（黄）、坏死（红）、非增强型肿

我们发现MFCascadeCNN∗该模型使类之间的边界更加平滑。我们假设，由于soft-max输出层中的神经元直接连接到每个感受野内的先验输出，这些参数更有可能明确中心像素标签应具有与其周围环境相似的标签。至于LocalCascadeCNN∗架构，虽然它在完整肿瘤类别中导致较少的假阳性，但其他类别（即肿瘤核心和增强肿瘤）的性能没有改善。

图8在矢状和冠状视图中显示了来自相同大脑（如图7所示）的分割结果。基于输入级联CNN∗模型。从该图中可以看出，虽然分割是在轴向视图上进行的，但在冠状和矢状视图中输出是一致的。图5和图6来自我们的验证集，模型未针对该验证集进行训练，来自这些受试者的分割结果可以很好地估计模型在测试集上的性能，然而，为了进一步明确，我们将模型在BRATS-2013测试集的两个受试者上的性能可视化。这些结果显示在图9的矢状（顶部）和轴向（底部）视图中。

图6.InputCascadeCNN中的学习进度∗. 第一行从左到右的数字流显示了第一阶段的学习过程。随着模型学习到更好的特征，它可以更好地区分肿瘤子类之间的边界。这是由于在第一阶段训练期间补丁的均匀标签分布而实现的，这使得模型相信所有类都是等概率的，并导致一些误报。通过在更接近标签的真实分布的分布

为了更好地理解InputCascadeCNN的过程∗学习特征，我们在图6中通过对来自验证集的受试者每隔几个时期进行预测来呈现模型的进展。

总的来说，InputCascadeCNN达到了最佳性能∗模型它改进了所有肿瘤区域的Dice测量。有了这种架构，我们能够在2013年布拉茨计分榜上排名第二。而MFCascadeCNN∗, 双路径CNN∗和LocalCascadeCNN∗这三个模型之间的内部排名分别标注为4a、4b和4c。

图8，我们的顶级模型InputCascadeCNN的可视化∗冠状面和矢状面视图。受试者与图7中相同。在每个子图中，顶行代表矢状视图，底行代表冠状视图。颜色代码如下：水肿（绿）、增强型肿瘤（黄）、坏死（红）、非增强型肿瘤（蓝）。

图9，我们的模型InputCascadeCNN的视觉分割结果∗, 在矢状（顶部）和轴向（底部）视图中的BRATS2013测试数据集示例上。颜色代码如下：水肿（绿）、增强型肿瘤（黄）、坏死（红）、非增强型肿瘤（蓝）。

表3显示了我们实现的体系结构与中提到的当前发布的最先进方法的比较（Menze等人，2014）。该表显示InputCascadeCNN∗表现优于Tustison等人，2013年BRATS挑战赛冠军，排名第一。表4所示的BRATS-2013排行榜结果表明，我们的方法优于在此数据集上形成其他方法。我们还将表5中的最佳方法与BRATS-2012测试集的最新方法进行了比较（Menze等人，2014）。从该表中可以看出，我们的方法在肿瘤核心类别中的表现优于其他方法，并在其他类别中获得了竞争性结果。表3，在BRATS-2013测试集上，将我们实现的结构与最先进的方法进行比较。

表4，将我们的实现架构与BRATS-2013排行榜上的最先进方法进行比较。

表5，Menze等人（2014）中讨论的BRATS-2012“4标签”测试集上我们的实现架构与最先进方法的比较

正如Menze等人（2014）报告的那样，Tustison的方法需要10分钟来计算每个大脑的预测，而InputCascadeCNN∗由于完全卷积的体系结构和GPU实现，需要3分钟，比挑战的胜利者快30倍以上。双路径CNN∗具有接近最先进水平的性能。以25秒的预测时间，比Tustison方法快200倍以上。表中的其他顶级方法是Meier等人和Reza等人的方法，处理时间分别为6分钟和90分钟。最近，Subbanna等人（2014年）在BRATS 2013数据集上发布了竞争结果，整体、核心和增强肿瘤区域的dice测量值分别为0.86、0.86和0.77。由于它们不报告特异性和敏感性测量，因此不可能与该方法进行完全公平的比较。然而，正如Subbanna等人（2014）所述，他们的方法处理受试者需要70分钟，比我们的方法慢23倍。

关于使用CNN的其他方法，Urban等人（2014）使用了两个3D卷积网络的平均值，dice测量值为0.87、0.77、0.73，用于BRATS 2013测试数据集上的整体、核心和增强肿瘤区域，每个模型的预测时间约为1分钟，总共为2分钟。同样，由于它们没有报告特异性和敏感性指标，我们无法进行全面比较。然而，根据他们的dice分数，我们的TwoPathCNN∗性能相似，但只需25秒，速度快四倍。和InputCascadeCNN∗在具有相同处理时间的情况下精度更好或相等。

对于（Zikic等人，2014年），他们没有报告2013年BRAT测试数据集的结果。然而，他们的方法非常类似于局部路径CNN，根据我们的实验，它的性能较差。

使用我们最佳的表现方法，我们参加了BRATS 2015挑战赛。BRATS 2015训练数据集包括220名高级别胶质瘤受试者和54名低级别胶质瘤患者。共有53名受试者患有混合性高、低级别胶质瘤。每个参与组从接受测试对象开始有48小时的时间来处理它们，并将它们的分割结果提交给在线评估系统。BRATS'15包含2013年的训练数据。其余训练大脑的基标签是由BRATS'13和BRATS'12中顶级预成型方法的分段结果的投票平均值生成的。其中一些自动生成的基本事实已由用户手动细化。

由于该数据集中强度值的分布因受试者而异，我们使用了7倍交叉验证进行训练。在测试时，对这些模型进行投票平均，以对测试数据集中的每个受试者进行预测。挑战的结果如图10所示。参与挑战的半自动方法有：以灰色突出显示。请注意，由于这些结果尚未公开，我们不披露参与者的姓名。在该图中，半自动方法以灰色突出显示。如图所示，我们的方法在完全肿瘤和肿瘤核心类别上排名第一或第二，并在活动肿瘤类别上获得竞争性结果。我们的方法也比大多数其他方法具有更少的异常值。

图10.我们的BRATS使用InputCascadeCNN的15个挑战结果∗. 三种肿瘤类别的Dice得分和负对数Hausdorff距离。由于挑战的结果尚未公开，我们无法披露参与者的姓名。半自动方法以灰色突出显示。在每个子图中，根据平均值对方法进行排序。平均值用绿色表示，中值用红色表示，异常值用蓝色表示。

6 结论

本文提出了一种基于深度卷积神经网络的脑肿瘤自动分割方法。我们考虑了不同的体系结构，并研究了它们对性能的影响。BRATS 2013在线评估系统的结果证实，通过我们的最佳模型，我们成功地改进了MICCAI 2013中提出的当前发布的最先进方法的准确性和速度。借助于一种新的双路径架构（可以建模局部细节和全局特征），以及通过堆叠两个CNN来建模局部标签相关性，实现了高性能。训练基于两阶段过程，我们发现这有助于我们在标签分布不平衡时有效地训练CNN。由于模型的卷积性质，并通过使用高效的GPU实现，生成的分割系统非常快。使用这些CNN架构分割整个大脑所需的时间在25秒到3分钟之间变化，这使它们成为实用的分割方法。