【论文笔记】Efficient multi‐scale 3D CNN with fully connected CRF for accurate brain lesion segmentation

【论文笔记】Efficient multi‐scale 3D CNN with fully connected CRF for accurate brain lesion segmentation

  • 文章题目:Efficient multi‐scale 3D CNN with fully connected CRF for accurate brain lesion segmentation
  • 作者:Konstantinos Kamnitsas , Christian Ledig , Virginia F.J. Newcombe, Joanna P. Simpson , Andrew D. Kane , David K. Menon , Daniel Rueckert , Ben Glocker
  • 关键词:3D convolutional neural network; Fully connected CRF ;Segmentation ;Brain lesions ;Deep learning
  • 时间:2017
  • 来源:Medical Image Analysis
  • paper:https://arxiv.org/pdf/1603.05959.pdf
  • code:https://biomedia.doc.ic.ac.uk/software/deepmedic/ ,https://github.com/deepmedic/deepmedic
  • 引用:Kamnitsas, K., Ledig, C., Newcombe, V. F. J., Simpson, J. P., Kane, A. D., Menon, D. K., Rueckert, D., & Glocker, B. (2017). Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation. Medical Image Analysis, 36, 61–78. https://doi.org/10.1016/j.media.2016.10.004

感性认识

  • 研究的基本问题
    在3D医学影像数据(脑部),分割脑损伤病变。
    是一个基于3D数据的语义分割。使用的基本方法是3D全卷积网络。
  • 现有问题
    3D数据+3D全卷积,内存与计算开销受到极大限制,训练速度与效果难以保障。
    数据过于庞大,无法一次性全部读入,感受野(可利用的全局信息)受到了限制。
    网络的深度受到了限制。
    数据是不平衡的,病变面积小,背景体积大。
    CNN的结果是软分类,需要进行硬标签的划分。
  • 主要想法
  1. 针对训练问题,使用全卷积 + 密集训练策略。全卷积代替全连接,输入一个Patch,一次性可以输出一个区域的结果,使用这一区域的损失的平均作为最终损失。密集训练策略是全图像感受野与最后一个FM一个像素的感受野之间的折中,最后一层感受野是17,整张图像是100,则密集训练采集的Patch大小在17之上,就可以输出一个小区域的结果。
  2. 密集训练时,搭配有Patch提取策略,利用这一策略可以解决数据类别不平衡的问题。具体抽样策略是:以50%的概率分别以病变体素和背景体素为中心采集。
  3. 网络深度增加会由计算负担与过拟合风险。使用小卷积核加速卷积,减少计算量,从而能够加深网络(保持相同的感受野)。采用特定的初始化方法与加入BN层解决深度网络中训练出现的问题。
  4. 无法将整张图象用于训练,限制了模型学习全局信息(体素的上下文信息)的能力。设置双通路解决这个问题,一个通路是常规的局部patch的卷积通路,另一个通路将图像下采样得到范围更大的低分辨率图像,用于提取全局信息(上下文信息)。最后两个通路会和(保证各体素位置对应,总大小对应),输入到全连接层(1* 1 *1的全卷积)后得到输出。
  5. 在CNN后加入一个3维的全连接条件随机场,进行硬分割。
  • 结果与结论
    在三个数据集上验证,取得SOTA。
    发现了一些过程特征,对于医学信息的提取和CNN特征学习的解释有所帮助。
  • 不足与展望
  1. 模型具有很好的适应性,但是应用在不同任务上,CRF与参数需要重新调整。设想让CRF变为网络,使用神经网络,进行端到端的训练。
  2. 融合更多的领率先验知识,指导性能。
  3. 数据的异构性,不同设备的产出图像差异很大。设想在数据上加前处理操作,构建一个数据生成模型。
  4. 因为医学数据的严肃性,模型的可解释性是个问题。

理性认识

abstract

We propose a dual pathway, 11-layers deep, three-dimensional Convolutional Neural Network for the challenging task of brain lesion segmentation. The devised architecture is the result of an in-depth anal- ysis of the limitations of current networks proposed for similar applications. To overcome the computational burden of processing 3D medical scans, we have devised an efficient and effective dense training scheme which joins the processing of adjacent image patches into one pass through the network while automatically adapting to the inherent class imbalance present in the data. Further, we analyze the development of deeper, thus more discriminative 3D CNNs. In order to incorporate both local and larger contextual information, we employ a dual pathway architecture that processes the input images at multiple scales simultaneously. For post-processing of the network’s soft segmentation, we use a 3D fully connected Conditional Random Field which effectively removes false positives. Our pipeline is extensively evaluated on three challenging tasks of lesion segmentation in multi-channel MRI patient data with trau matic brain injuries, brain tumours, and ischemic stroke. We improve on the state-of-the-art for all three applications, with top ranking performance on the public benchmarks BRATS 2015 and ISLES 2015. Our method is computationally efficient, which allows its adoption in a variety of research and clinical settings. The source code of our implementation is made publicly available.

摘要

我们提出了一种双通路(dual pathway)、11层深度、三维卷积神经网络用于脑损伤分割(brain lesion segmentation)这一挑战性任务。设计的体系结构是深入分析目前针对这类问题而提出的网络的局限性之后提出的。为了克服处理三维医学扫描的计算负担,我们设计了一种有效且高效的密集训练方案,该方案将相邻图像块的处理融入到一次网络流程(one pass through the network)中,同时自动适应数据中固有的类别不平衡。在此基础上,我们进一步分析了更深层3D CNN的发展,从而使其更具判别力。为了整合局部和更大的上下文信息,我们采用了一种双路径架构,在多个尺度上同时处理输入图像。对于网络软分割(soft segmentation)的后处理,我们使用了三维全连接条件随机场,有效地消除了假阳性(false positives)。我们的流程在三个病变分割中具有挑战性的任务上进行了广泛评估,分别是创伤性脑损伤、脑肿瘤和缺血性中风的多通道MRI患者数据。我们提高了所有三个应用上的最先进水平(state-of-the-art),在BRATS 2015和ISLES 2015公共基准上的表现排名第一。我们的方法在计算上是高效的,这允许它在各种研究和临床环境中被采用。源代码是公开的。

1. Introduction

医学图像中病变的分割和随后的定量评估为神经病理学的分析提供了有价值的信息,对治疗策略的规划、疾病进展的监测和患者预后的预测都很重要。为了更好地了解疾病的病理生理学,定量成像可以揭示疾病的特征和对特定解剖结构的影响。例如,创伤性脑损伤(TBI)后,带有急性和慢性后遗症,不同类型的损伤、其空间分布和范围之间的关系仍不清楚。然而,越来越多的证据表明,病变负荷(Lesion burden)的量化会增加对患者功能性预后的了解。此外,损伤的确切位置与特定的缺陷有关,这取决于受影响的大脑结构。这与中风引起的功能缺陷与大脑特定部位损伤程度有关的估计是一致的。病变负荷通常通过病变,已被证明与认知缺陷有关生物标志物的体积和数量来量化。例如,白质病变体积(WML)与认知能力下降和痴呆风险增加相关。在多发性硬化(MS)的临床研究中,病变数量和体积被用来分析疾病进展和药物治疗的有效性。最后,在脑肿瘤的病例中,精确的病理描述是很重要的,因为对肿瘤子成分的相对体积的估计是放疗计划和后续治疗所必需的。病变的定量分析需要在多模态、三维图像中准确分割病变,这是一项具有挑战性的任务。病变外观的异质性,包括在位置、大小、形状和频率上的巨大差异,使设计有效的分割规则变得困难。因此,在TBI或脑肿瘤的亚成分如增殖细胞和坏死核心中描绘挫伤、水肿和出血的轮廓是很有意义的。可以说,最精确的分割结果可以通过由人类专家人工描绘获得,但这繁琐,昂贵,耗时,且在大型研究中不实用,还会引入观察者之间的差异。此外,为了确定特定区域是否属于病变的一部分,需要对比多个不同的图像序列,而专家知识和经验水平是影响分割精度的重要因素。因此,在临床环境中,通常只使用定性的、目视的检查,或者最多粗略的测量,如近似的病变体积和病变的数量。为了捕捉和更好地理解大脑病理的复杂性,进行多实验对象的大型研究是很重要的,以获得在整个患者群体中得出具有统计意义的结论。因此,发展准确、自动分割算法已成为医学图像计算的主要研究重点,有可能提供客观、可再现、可扩展的方法来定量评估脑损伤。
图1展示了设计病变自动分割方法时出现的一些挑战。该图总结了统计数据,展示了脑损伤中可能是其他病理如脑肿瘤和缺血性中风的例子。病变可以发生在多个部位,具有不同形状和大小,其图像强度轮廓很大程度上与未受影响的、健康的大脑部分或不是关注焦点的病变重叠。例如,stroke和MS病变在FLAIR序列中具有与其他脑白质病变相似的高强度表征。通常很难获得有关病变形状和外观的先验统计信息。另一方面,在一些应用场景中,对分割标签的空间配置有所要求,例如,在脑肿瘤中有子组件的分层布局。理想情况下,计算方法能够通过学习一组示例图像来调整自己以适应应用场景的特定特征。

1.1 Related work 相关工作

在过去的十年中,大量的病变自动分割方法被提出,主要分为几大类。
其中一组方法提出将病变分割任务作为异常检测问题,例如通过使用图像配准(image registration)。
一些最成功的、有监督的脑损伤分割方法是基于体素分类器的,如随机森林。
与此同时,深度学习技术已经成为监督学习的强大替代品,具有强大的模型容量和为当前任务学习高度判别特征的能力。这些特征通常比手工提取和预先定义的特性集性能更好。特别是卷积神经网络(CNNs)已经在多种生物医学成像问题上得到了很有前景的结果。
基于2维CNN:From the CNN based work that followed, related to our approach are the methods of Zikic et al. (2014) ; Havaei et al. (2015) ; Pereira et al. (2015) , with the latter being the best performing automatic approach in the BRATS 2015 chal- lenge ( Menze et al., 2015 ).
全3D cnn(Fully 3D CNNs)具有更多的参数和显著的内存与计算需求。以前的工作讨论了在医学成像数据上使用3D CNN时存在的问题和明显的限制。为了整合3D上下文信息,多个作品在三个正交的2D补丁上使用2D cnn。在结构大脑分割的工作中,Brebisson和Montana(2015)从图像的多个尺度中提取了大的2D patches,并将其与小的单尺度3D patches相结合,以避免全3D网络的内存需求。
阻碍3D cnn使用的原因之一是:3D卷积高昂的计算成本,导致推断速度较慢。与2D/3D混合变体相比,3D cnn可以充分利用密集推断(dense-inference),这是一种大大减少推理时间的技术,我们将在2.1节中进一步讨论。Brosch等人(2015)和Urban等人(2014)报告,通过使用3D cnn的密集推理,处理一次大脑扫描的计算时间分别为几秒和大约一分钟。尽管他们开发的网络的规模有限(这是一个直接与网络表征能力相关的因素),但他们分别在MS和脑瘤分割方面的结果非常有前途。
训练样本提取策略对cnn的性能有显著影响。一种常用的方法是从每个类中同等采样的图像块上进行训练。然而,这将使分类器偏向于罕见的类,并可能导致过度分割。

1.2 Contributions 贡献

我们提出了一种基于11层深度、多尺度、3D CNN的全自动多模态脑MRI病变分割方法,主要贡献如下:

  1. 我们提出了一种高效的混合训练方案,利用密集训练(Long et al., 2015)对采样图像分割,并分析其在适应当前分割问题中的类别不平衡的行为。
  2. 我们深入分析了更深层、更具分辨力、计算效率更高的3D cnn的发展。我们探索了小内核的使用,这是一种以前在2D网络中发现的有益的设计方法(Simonyan和Zisserman, 2014),它对3D cnn的影响更大,并提出了能够训练更深层次网络的解决方案。
  3. 我们采用并行卷积路径进行多尺度处理,有效地结合了局部信息和上下文信息,极大地提高了分割结果。
  4. 我们展示了我们的系统的通用性,在没有重大修改的情况下,在各种具有挑战性的分割任务上,该系统的性能超过了最先进的水平,在两个MICCAI挑战、ISLES和BRATS中名列前茅。

此外,对该网络的详细分析揭示了对cnn深度学习的强大黑匣子的宝贵见解。例如,我们发现我们的网络能够学习非常复杂的、高层次的特征,能分离灰质(GM)、脑脊液(CSF)和其他解剖结构,以识别病变对应的图像区域。
此外,我们将全连接条件随机场(CRF)模型扩展到3D,我们将其用于CNN的软分割图的最终后处理。该CRF克服了以往模型的局限性,因为它可以处理任意大的邻域,同时保持快速推理时间。据我们所知,这是第一次在医疗数据上使用完全连接的CRF。

2.Method 方法

我们提出的病变分割方法由两个主要组成部分组成,一个3D CNN产生高度精确的软分割地图,以及一个完全连接的3D CRF,该CRF对CNN输出施加正则化约束,并产生最终的硬分割标签。我们工作的主要贡献是在CNN组件内。

2.1 3D CNNs for dense segmentation –setting the baseline

cnn独立地将图像中的每个体素分类,考虑其邻居信息,即局部和上下文图像信息,从而产生对体素类分割标签的估计。这是通过在网络的级联层(cascaded layers)使用多个滤波器对输入进行顺序卷积(sequential convolutions)来实现的。
在本研究中,步长为1,因为使用了更大的步幅是在对FMs下采样,这对精确分割来说是不必要的行为
全卷积网络能够进行密集推理,当提供比ϕ CNN(整个cnn网络的感受野,即最后一层Feature map的感受野)大的输入时就会进行密集推理(Sermanet et al., 2014),当输入大小与ϕ CNN相同时,进行的是中心体素的单一预测。所有的预测都是同样可信的,只要接收字段完全包含在输入中,并且只捕捉原始内容,即不使用填充。这一策略大大降低了计算成本和内存负载,因为在重叠的patch中避免了在相同的体素上重复计算卷积。如果在一次前向扫描中扫描整个图像,将获得最佳的性能。如果GPU内存限制不允许这样做,例如在大型3D网络中,需要缓存大量的FMs,那么该体积就被平铺在多个图像段中,这些图像段比单个补丁大,但又足够小,可以装入内存。
图2

在分析我们如何利用上述密集推理技术进行训练(这是我们工作的第一个主要贡献)之前,我们提出了cnn逐片训练的常用设置。从训练图像中提取φ CNN大小的随机小块。每B个组成一个批,进行一次随机梯度下降(SGD)训练迭代。

2.2 Dense training on image segments and class balance

批大小B是当然是大一些更好,因为这样更准确地近似整体数据,更好地估计真实梯度的SGD。然而,内存需求和计算时间随着批大小的增加而增加。这一限制对于3D cnn尤其明显,在现代gpu上,在合理的时间内只能处理几十个补丁。
dense

这是一个常规单独patch训练和整体密集推断之间的一个混合方案,后者的问题是内存限制。
该方法的一个引人注目的结果是,输入片段的采样提供了一种灵活的、自动的方法来平衡不同分割类的训练样本的分布,这是一个直接影响分割精度的重要问题。具体来说,我们按50%概率以前景或背景体素为中心从训练图像中提取片段来构建训练批次,缓解了类别不平衡
图3

注意,一个片段中的预测体素V不必是同一类的,当从类边界附近的区域采样一个片段时就会发生这种情况(图3)。因此,所提出的混合方法的采样率调整到分割任务的类的真实分布。具体来说,标记的对象越小,在前景体素中心的片段中捕获的背景体素就越多。隐式地,这在二元分割任务的情况下产生了敏感性和特异性之间的平衡。在多类问题中,不同类在以前景为中心的片段中被捕获的比率反映了前景类的真实相对分布,同时适应于它们相对于背景的频率。

2.3 Building deeper networks

更深层次的网络由于额外的非线性和更好的局部最优质量而具有更大的判别能力。然而,与2D版本相比,3D卷积: 1) 计算上是昂贵的,这阻碍了更多层的添加。2) 3D架构有大量的可训练参数,每一层都为模型增加权重. 3) 总的来说,这使得网络越来越容易过度拟合。
为了构建一个更深入的3D架构,我们只使用了小的3 * 3 * 3核,这是更快的卷积且包含更少的权重。这种设计方法先前被发现有利于自然图像的分类,但它在3D网络上的影响更大。与常见的 53 的内核选择相比,在我们的基线CNN中,较小的 33 核将元素的乘法减少约53 /33≈4.6,同时将可训练参数的数量减少相同的因子。因此,通过简单地用使用更小内核的层来替换公共架构的每一层,就可以设计出更深层的、隐式规范化的和更高效的网络变体(图4)。
图4

然而,更深层次的网络更难训练。已经证明,如果不注意保持其方差,正向(神经元激活)和反向(梯度)传播的信号可能会爆炸或消失。为了在初始训练阶段更好地保留信号,我们采用He等人(2015)最近为基于relu的网络导出的方案,并通过从正态分布采样初始化我们系统的核权值. N ( 0 , 2 / n l i n ) \mathcal{N}\left( 0,\sqrt{2/n_{l}^{in}} \right) N(0,2/nlin )
阻碍网络性能的一个类似性质的现象是“内部协变量移位”(internal covariate shift)(Ioffe和Szegedy, 2015)。它发生在整个训练过程中,因为权值更新到更深层次会导致更高层次的信号分布不断变化,这阻碍了它们权值的收敛。具体来说,在训练迭代t时,权重更新可能会导致权重方差的偏差。与传统的2D系统相比,该问题对3D cnn的训练影响更为严重。为了应对它,我们采用了最近提出的批标准化 BN技术对所有隐藏层,这允许在每个优化步骤对FM激活进行归一化,以便更好地保存信号。

2.4 Multi-scale processing via parallel convolutional pathways

每个体素的分割是CNN的感受野捕捉到以体素为中心的上下文信息来进行的。空间上下文为区分体素提供了重要的信息,而这些体素在只考虑局部外观时看起来非常相似。增加CNN的感受野需要更大的核数或更多的卷积层,这就增加了计算量和内存需求。另一种方法是使用池化,但这将导致分割体素的确切位置丢失,从而对准确性产生负面影响。
为了将局部和更大的上下文信息合并到我们的3D CNN中,我们添加了第二个路径,用于下采样图像。因此,我们的双通路3D CNN在多个尺度上同时处理输入图像(图5)。更高层次的特征,如大脑内的位置,在第二通道学习,而详细的局部外观的结构是捕获在第一个通道。在这种结构中,由于两种路径是解耦的,所以只要简单地调整下采样因子F D,第二种路径就可以处理任意大的环境。路径的大小可以根据计算能力和手头的任务独立调整,这可能需要更多或更少的针对下采样上下文的滤波器。
**为了保持密集推理的能力,应该保证两条路径l1和l2的最后一个卷积层在FMs中激活的空间对应性。**在仅使用一元核步长的网络工作中,例如所提出的体系结构,这要求感受野ϕ L 1在正常分辨率输入上每进行F D的移位,ϕ L 2在下采样输入上只执行一次移位。这就建立了两种分辨率的输入部分所需尺寸之间的关系,然后可以提取出以同一图像位置为中心的输入部分。l2的FMs被上采样以匹配l1的FMs的尺寸,然后被连接在一起。在最终的分类前,我们又添加了两个隐藏层来结合多尺度特征,如图5所示。
图5

结合多尺度特征在近期的其他研究中也被发现是有益的,在网络中应用少量卷积处理整个二维图像,然后对FMs进行下采样,在不同尺度下进行进一步处理。我们的解耦路径允许提供任意大的上下文,同时避免需要将3D图像的大部分加载到内存中。此外,我们的架构从多个分辨率中完全独立地提取特性。这样,第一个路径学习到的特征保留最精细的细节,因为它们不涉及处理低分辨率的上下文。

2.5 3D Fully connected CRF for structured prediction

由于相邻的体素共享大量的空间背景,由CNN产生的软分割地图往往是平滑的,即使邻接关系没有直接建模。然而,训练中的局部极小值和输入图像中的噪声仍然会导致一些伪输出,在预测中会出现小的孤立区域或漏洞。我们使用一个完全连接的CRF(fully connected CRF,) (Krähenbühl和Koltun, 2011)作为后处理步骤,以实现更结构化的预测。正如我们下面所描述的,该CRF能够建模任意大的体素邻域,但计算效率也很高,使其成为处理3D多模态医学扫描的理想选择。
给定图片I,与标签(分割结果)z,能量函数: E ( z )   =   ∑ i ψ u ( z i ) + ∑ i   j , i ≠ j ψ p ( z i , z j ) E\left( \mathbf{z} \right) \ =\ \sum_{i}{\psi _u\left( z_i \right)} +\sum_{i\ j,i\ne j}{\psi _p\left( z_i ,z_j\right)} E(z) = iψu(zi)+i j,i=jψp(zi,zj)其中,一元势函数是负对数似然,由CNN对 i 的输出结果给出。
成对势函数:(任意一对体素,不论距离)
ψ p ( z i , z j )   =   μ ( z i , z j ) k ( f i , f j ) \psi _p\left( z_i,z_j \right) \ =\ \mu \left( z_i,z_j \right) k\left( \mathbf{f_i},\mathbf{f_j} \right) ψp(zi,zj) = μ(zi,zj)k(fi,fj)Pott的模型中常用标签兼容性函数:
μ ( z i , z j )   =   [ z i   ≠   z j ] \mu \left( z_i,z_j \right) \ =\ \left[ z_i\ \ne \ z_j \right] μ(zi,zj) = [zi = zj]相应的能量惩罚由函数k给出,该函数定义在任意特征空间上,fi, fj是这对体素的特征向量。
如果惩罚函数被定义为高斯核的线性组合,在将消息传递(message passing)表示为与高斯核在特征向量fi, fj空间中的卷积之后,该模型可以使用平均场近似(mean field approximation)进行非常有效的推理。
我们扩展了原始作者的工作,并实现了一个用于处理多模态扫描的CRF的3D版本。我们利用了两个高斯核,它们在由体素坐标p_{i,d}和体素i的第c通道的强度I_{i,c}定义的特征空间中工作。
平滑核(smoothness kernel) K1由一个对角协方差矩阵定义,每个轴有一个可配置参数σα,d。这些参数表明了鼓励标签相同的区域的大小和形状。
k1
类似地,外观核(appearance kernel) 由方程定义。当体素在由σβ、d所定义的区域内被相同标记时,附加的σγ、c参数可以解释为c输入通道的均匀性。最后,可配置权重w(1)、w(2)定义了两个因素的相对强度。
k2

3.Analysis of network architecture 网络结构分析

3.1. Experimental setting

实验是使用61个多通道磁共振成像的TBI数据集进行的。图像被随机分成验证集和训练集,分别有15和46张图像。在所有分析中都使用相同的集合。为了在训练过程中监控分割精度的进展,我们定期抽取10k个随机斑块,从每个验证图像中提取相同数量。为了接近病变和健康组织的真实分布,从大脑区域均匀采样斑块。每5个周期对验证数据集进行全分割,并确定平均骰子相似系数(DSC)。

3.2. Effect of dense training on image segments

对比的训练方案:Puni:从大脑区域均匀提取的173大小的斑块进行训练,Ped:对病变和背景类的斑块进行均匀采样。
P eq由于过度分割而表现不佳(敏感性高,特异性低)。P uni在背景类上有更好的分类(高特异性),这导致了较高的平均体素精度,因为大多数都对应于背景,但由于分割不足(低灵敏度)并没有特别高的DSC分数。
为了评估我们的密集训练方案,我们用不同大小的图像片段训练多个模型,从病变和背景中同等采样。测试的片段大小从193 上升到293。模型被称为“S-d”,其中d是立方片段的边长。为了公平比较,调整了所有实验中的批大小,使其具有相似的内存占用,并导致与P uni和P eq上的训练相似的训练时间。我们观察到model S-19比peq有很大的性能提高。我们将这部分归因于有效批量的有效增加,但也归因于训练样本分布的改变。随着我们进一步增加训练片段的大小,我们很快就在P eq的敏感性和P uni的特异性之间达到了平衡,从而得到了用DSC表示的改进的分割。
段大小(segment size)在我们的模型中是一个超参数。我们观察到,随着段大小的增加,性能的提高很快趋于平稳,并且对于各种段大小都可以获得类似的性能,这允许简单的配置。在其余的实验中,所有的模型都在尺寸为25 3的片段上进行训练。
tu6

3.3. Effect of deeper networks

5层基线CNN(图2),这里被称为“浅层”模型,通过将每个使用5个3核的卷积层替换为使用3个3核的两层,扩展到9层(图4)。这种模式被称为“深度”。然而,后者的训练完全失败了,因为模型只做出与背景类相对应的预测。这个问题与保存信号的挑战有关,因为信号通过深层网络传播,其方差与权值的方差相乘,如前面在2.3节中讨论的那样。其中一个原因是,两个模型的权值都已初始化,采用了常用的从正态分布N(0,0.01)抽样的方案。。相比之下,He等人(2015)为在训练的初始阶段保留信号而推导出的初始化方案得到了更高的值,克服了这一问题。通过使用批处理归一化,进一步保持了信号。这就产生了一个增强的9层模型,我们称之为“Deep +”,在浅模型上使用相同的增强会产生“Shallow +”。如图7所示,Deep +比Shallow +的性能显著提高是由于越深的网络表征能力越强的结果。这两种模型需要相似的计算时间,这突出了在设计3D cnn时利用小核的好处。虽然更深的模型需要在GPU上进行更连续的(一层一层的)计算,但由于内核尺寸更小,这些计算速度更快。
7

3.4. Effect of the multi-scale dual pathway

网络架构的最终版本,称为“DeepMedic”,是通过使用与第一个相同的第二个卷积路径来扩展Deep +模型来构建的。在分类层之前加入两个隐含层来结合多尺度特征,形成一个11层的深度网络(参见图5)。第二路径路径的输入段提取自向下采样三倍的图像。因此,该网络能够通过低分辨率通路的173 接受野捕捉原始图像的513区域的上下文,而仅比单一通路CNN的计算和内存需求增加一倍。相比之下,最近提出的用于病变分割的2D CNN系统的接受场限制在332体素。
性能提高可以归因于额外的上下文,而不是DeepMedic的额外容量。为此,我们通过在Deep +的9层中每一层增加两倍的FMs,并添加两个隐藏层,建立了一个大的单尺度模型。这个11层的深度和广度模型,称为“BigDeep +”,具有与DeepMedic相同的参数数量。模型的性能没有得到改善,出现过拟合的迹象。
8

3.5. Processing 3D in comparison to 2D context

获得性脑核磁共振扫描通常是各向异性的。在我们的TBI数据集中,除了各向同性MPRAGE外,大多数序列都是用较低的轴向分辨率获得的。我们进行了一系列的实验来研究二维网络的行为,并评估在这种背景下处理三维环境的好处。
通过将每个内核的第三维度设置为1,DeepMedic可以转换为2D。这样,只有来自轴向面的周围环境的信息才会影响每个体素的分类。如果二维片段被给定作为输入,特征映射的维数会减少,所需的内存也会减少。这允许开发2D变体,增加训练批的宽度、深度和大小,与3D版本的要求类似,这是在实际情况下模型选择的有效候选。我们评估了各种配置,并在表B.1(底部)中列出了一些代表及其表现。通过一个19层的多尺度网络实现了对二维变量的最佳分割,在验证fold上达到了61.5%的平均DSC。从DeepMedic 3D版本的66.6%DSC的下降,表明即使在大多数获得的序列在某一轴上分辨率较低的情况下,处理3D上下文的重要性。

4. Evaluation on clinical data

该系统由DeepMedic CNN架构组成,可选地与完全连接的CRF结合,在三个病灶分割任务中进行评估,包括来自创伤性脑损伤、脑肿瘤和缺血性中风患者的挑战性临床数据。对每一项任务都报告了与最先进技术的定量评价和比较。
2.For brain tumours, we evaluate our system on the data from the 2015 Brain Tumour Segmentation Challenge (BRATS) ( Menze et al., 2015 ). The training set consists of 220 cases with high grade (HG) and 54 cases with low grade (LG) glioma for which corresponding reference segmentations are provided.
对于脑肿瘤,我们根据2015年脑肿瘤分割挑战(BRATS)的数据评估我们的系统(Menze等人,2015)。训练集包括高级别(HG)脑胶质瘤220例和低级别(LG)脑胶质瘤54例,并提供相应的参考分割。
3.我们参加了2015年的缺血性脑卒中病变分段(ISLES)挑战,我们的系统在所有参与者中取得了亚急性缺血性脑卒中病变的最佳结果(Maier et al., 2017)。

5. Discussion and conclusion

我们提出了DeepMedic,一种用于自动病灶分割的3D CNN架构,在挑战数据上超越了最先进的水平。所提出的训练方案不仅计算效率高,而且提供了一种自适应的方法,部分缓解了分割问题中固有的类别不平衡问题。我们分析了在3D cnn中使用小卷积核的好处,这使我们能够开发一个更深入、从而更具鉴别性的网络,而不增加计算成本和可训练参数的数量。我们讨论了训练深度神经网络的挑战,以及从深度学习的最新进展中采用的解决方案。此外,我们提出了一种有效的解决方案,通过使用并行卷积路径进行多尺度处理来处理大图像上下文,缓解了以往3D cnn的主要计算限制之一。最后,我们提出了第一个3D全连接CRF在医疗数据上的应用,作为一个后期处理步骤,用于细化网络的输出,这种方法在处理2D自然图像方面也显示出了前景。由于其通用的3D特性,所提议的系统的设计非常适合处理医疗数据。DeepMedic和使用的CRF捕捉3D模式的能力超过了2D网络和局部连接随机场的能力,这些模型在以前的工作中已经被广泛使用。同时,我们的系统在推理时非常高效,这允许它在各种研究和临床环境中采用。
我们系统的一般性特性允许它直接应用于不同的病变分割任务,而不需要特别的适应性。据我们所知,我们的系统在严重创伤性脑损伤患者队列中获得了最高的准确性。作为对比,我们改进了Rao等人(2014)报告的管道性能。值得注意的是,后一项工作只关注挫伤的分割,而我们的系统已被证明能够分割甚至小的和弥漫性的病理。此外,我们的管道在脑肿瘤(BRATS, 2015年)和中风病变(SISS ISLES, 2015年)的公共基准上都实现了最先进的性能。我们相信,通过对特定任务和数据的调整(例如在预处理过程中),性能可以进一步提高,但我们的结果显示了这种通用设计的分割系统的潜力。
当将我们的流程应用到新任务时,一个费力的过程是对CRF的重新配置。在所有研究任务中,该模型以统计显著性改善了系统的性能,尤其是在底层分类器性能下降时,证明了该模型的灵活性和鲁棒性。然而,为每项任务寻找最优参数可能是具有挑战性的。这在多类肿瘤的分割任务上表现得最为明显。因为肿瘤的亚结构在外观上有显著的不同,找到一个全局的参数集,从而在所有类别上得到改善证明是困难的。相反,我们以二进制方式应用CRF。这个CRF模型可以为每个类配置一组单独的参数。然而,较大的参数空间会使其构型进一步复杂化。Zheng等人(2015)最近的研究表明,这种特定的CRF可以被铸造成一个神经网络,它的参数可以通过规则梯度下降学习。在神经网络上以端到端方式训练它将减轻所讨论的问题。这将作为今后工作的一部分加以探讨。
最近基于cnn的系统成功地在以前被认为过于雄心勃勃的领域取得了匹敌人类的表现,这表明了学习特征的辨别能力。对自动提取的信息的分析可能会提供新的见解,并促进目前已知的病理学研究。为了说明这一点,我们探索了在病灶分割任务中已经自动学习的模式。当我们从TBI数据库中处理一个主题时,我们可视化DeepMedic的FMs的活动。许多出现的模式是很难解释的,特别是在更深的层次。在图14中,我们提供了一些例子,有一个直观的解释。最有趣的发现之一是,该网络学习识别脑室、脑脊液、白质和灰质。这表明组织类型的分化有利于病变的分割。这与文献中的研究结果一致,传统分类器的分割性能通过加入组织先验信息得到了显著提高。这是直观的,不同类型的病变影响大脑的不同部位取决于病理的潜在机制。对网络提取的空间线索进行严格的分析,可能会揭示尚未明确定义的相关性。
同样有趣的是在低分辨率通路中提取的信息。当它们处理更大的环境时,这些神经元获得了额外的定位能力。某些激活的FMs会在大脑周围区域形成区域。这些模式被保存在最深层的隐藏层中,这表明它们有利于最终的分割(见图14的最后两行)。我们相信这些线索提供了空间系统偏差,例如大型创伤性脑损伤挫伤往往发生——病房前面和侧面的大脑(见图1 c)。此外,可以观察到多分辨率特性之间的相互作用在FMs的隐层的连接通路。该网络学习对两条路径的输出加权,在某些部分保留低分辨率,在其他部分显示细节(图14的底部一行,前三个FMs)。我们的假设是,低分辨率通路对难以分割的大病变和大脑区域提供了粗略的本地化,这保留了网络的剩余部分,用于学习与检测较小病变、精细结构和模糊区域相关的详细模式。
上述探索的结果使我们相信,将“深黑盒”的辨别能力与多年获取的生物医学研究知识融合在一起,蕴藏着巨大的潜力。临床知识可用于某些病理,如白质病变的空间先验。先前的工程化模型已被证明能有效解决基本成像问题,如大脑提取、组织分割和偏置场校正。我们展示了一个网络是能够自动提取这些信息的一部分。然而,研究将现有信息如先验信息整合到网络特征空间的结构化方法将是很有趣的,这将简化优化问题,同时让专家指导网络走向最优解决方案。
虽然神经网络在医学图像分析中似乎很有前途,但使推理过程更易于解释还是需要的。这将有助于了解网络何时出现故障,这是生物医学应用的一个重要方面。虽然输出有界在[0,1]范围内,并且为了方便起见通常被称为概率,但在贝叶斯意义上它不是一个真正的概率。对贝叶斯网络的研究旨在缓解这一限制。例如,Gal和Ghahramani(2015)最近的研究表明,模型的置信度可以通过对dropout mask采样来估计。
当我们的系统应用于BRATS和ISLES的测试数据集时,与它在训练数据上的交叉验证性能相比,观察到的性能下降应该是一个普遍的观点。在这两种情况下,测试图像的子集是在不同于训练数据集的临床中心获得的。不同的扫描仪类型和采集协议对图像的外观有显著的影响。多中心数据的异质性问题被认为是实现大规模成像研究的主要瓶颈。这不是我们的方法所特有的,而是医学图像分析中普遍存在的问题。使CNN不受数据异质性影响的一种可能方法是为数据采集过程学习一个生成模型,并在数据增强步骤中使用该模型。这是我们在未来工作中探索的方向。为了促进这一领域的进一步研究,并为未来的评估提供基准,我们公开了整个系统的源代码。

真·笔记

1.小卷积核
2.感受野
3.单步
4.全卷积

小尾巴

1.DSC
2.CRF
3.软分割与应分割

重点相关论文

1.Long, J. , Shelhamer, E. , Darrell, T. , 2015. Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431–3440 .
密集推理
2.Simonyan, K., Zisserman, A., 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556 .
小卷积核
3.Krähenbühl, P. , Koltun, V. , 2011. Efficient inference in fully connected CRFs with gaussian edge potentials. Adv. Neural Inf. Process. Syst 24, 109–117
全连接CRF
4.He, K. , Zhang, X. , Ren, S. , Sun, J. , 2015. Delving deep into rectifiers: Surpassing hu- man-level performance on imagenet classification. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1026–1034 .
参数初始化方案

参考文献

1.https://blog.csdn.net/wyzjack47/article/details/81158024
2.https://blog.csdn.net/sinat_31824577/article/details/51779228
3.https://www.pianshen.com/article/56951951078/
4.https://www.jianshu.com/p/802068b63cfc

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值