[医学多模态融合系列 -1] A review: Deep learning for medical image segmentation using multi-modality fusion 解读

这个系列会解读一些列医学多模态融合的文章,了解近在医学领域这两年(2020之后)最新的多模态融合方法.


paper1:A review: Deep learning for medical image segmentation using multi-modality fusion

0. Abstract

多模态广泛应用于医学成像,因为它可以提供关于目标(肿瘤、器官或组织)的多信息。使用多模态的分割包括融合多信息以改进分割。最近,基于深度学习的方法在图像分类、分割、目标检测和跟踪任务中展现了最先进的性能。由于其对大量数据的自学习和泛化能力,深度学习最近在多模态医学图像分割中也引起了极大的兴趣. 在本文中,我们概述了基于深度学习的多模态医学图像分割任务方法。首先,我们介绍了深度学习和多模态医学图像分割的一般原理。其次,我们展示了不同的深度学习网络架构,然后分析他们的融合策略并比较他们的结果。通常使用较早的融合,因为它简单并且侧重于后续的分割网络架构。然而,后来的融合更多地关注融合策略以学习不同模态之间的复杂关系。一般来说,与早期融合相比,如果融合方法足够有效,后期融合可以给出更准确的结果。我们还讨论了医学图像分割中的一些常见问题。最后,我们对未来的研究进行了总结和展望.

  • Keywords: Deep learning, Medical image segmentation, Multi-modality fusion, Review

1. Introduction

随着医学图像采集系统的发展,使用多模态的分割得到了广泛的研究。图像融合的不同策略,如概率论[1]、[2]、模糊概念[3]、[4]、相信函数[5]、[6]和机器学习 [7]、[8]、[ 9] , [10]已开发成功。对于基于概率论和机器学习的方法,不同的数据模态具有不同的统计特性,这使得难以使用浅层模型对其进行建模。对于基于模糊概念的方法,模糊度量量化了与每个源的决策相关的隶属度。多个源的融合是通过将模糊算子应用于模糊集来实现的。对于基于信念函数理论的方法,每个源首先由证据质量建模,然后应用 DempsterShafer 规则融合所有源。使用置信函数理论和模糊集理论的主要难点涉及证据质量、模糊测度和模糊合取函数的选择。然而,基于深度学习的网络可以直接对映射进行编码。因此,基于深度学习的方法具有产生比传统方法更好的融合结果的巨大潜力。自2012年以来,已经提出了几种深度卷积神经网络模型,如AlexNet [11],ZFNet [12],VGG [13],GoogleNet [14],Residual Net [15],DenseNet [16],FCN [17]和U网[18] 。这些模型不仅为图像分类提供了最先进的性能、分割、目标检测和跟踪等任务,也为图像融合提供了新的视角。他们的成功主要有四个原因:首先,深度学习相对于传统机器学习模型取得惊人成功的主要原因是神经网络的进步,它以增量方式从数据中学习高级特征,从而消除了需要领域专业知识和硬特征提取。它以端到端的方式解决了问题。其次,GPU和 GPU 计算库的出现使得模型的训练速度比在 CPU 上快 10 到 30 倍。和开源软件包提供高效的 GPU 实现。第三,ImageNet 等公开数据集可用于训练,使研究人员能够训练和测试深度学习模型的新变体。最后,一些可用的高效优化技术也有助于深度学习的最终成功,例如 dropout、batch normalization、Adam optimizer 等,ReLU激活函数及其变体,我们可以更新权重并获得最佳性能。

在深度学习成功的推动下,医学图像领域的研究也尝试将基于深度学习的方法应用于大脑[19]、[20]、[21]、肺[22]、胰腺[23 ], [24] , 前列腺[25]和多器官[26] , [27] 的医学图像分割. 医学图像分割是医学图像分析中的一个重要领域,是诊断、监测和治疗所必需的。目标是为图像中的每个像素分配标签,它通常包括两个阶段,首先,检测不健康的组织或感兴趣的区域;其次,拒绝不同的解剖结构或感兴趣的领域。与医学图像分割任务中的传统方法相比,这些基于深度学习的方法取得了优越的性能。为了获得更准确的分割以更好地诊断,使用多模态医学图像已成为一种日益增长的趋势策略。对谷歌学术搜索引擎上的关键词“深度学习”、“医学图像分割”和“多模态”的文献进行了全面分析图1,2019年7月17日查询。我们可以看到,从2014年到2018年,论文数量逐年增加,这意味着深度学习中的多模态医学图像分割近年来受到越来越多的关注。
Fig. 1. The tendency of multi-modal medical image segmentation in deep learning.

Fig1: 深度学习中多模态医学图像分割的趋势。

为了更好地理解该研究领域的维度,我们在图 2中比较了图像分割社区、医学图像分割社区以及使用深度学习和不使用深度学习的多模态融合医学图像分割的科学成果。从图中可以看出,在没有深度学习的方法中,论文数量有下降甚至趋势,但使用深度学习方法的论文数量有所增加在每一个研究领域。特别是在医学图像分割领域,由于数据集有限,经典方法仍然占据更主要的地位,但我们可以看到使用深度学习的方法有明显增加的趋势。

在这里插入图片描述

Fig 2:有/没有深度学习的相关研究领域的趋势。

医学图像分析的主要模式是计算机断层扫描(CT)、磁共振成像 (MRI) 和正电子发射断层扫描(PET)。与单幅图像相比,多模态图像有助于从不同的视图中提取特征并带来互补信息,有助于网络更好的数据表示和判别能力。正如参考文献中指出的那样[28], CT 图像可以诊断肌肉和骨骼疾病,例如骨肿瘤和骨折,而 MR 图像可以在没有辐射的情况下提供良好的软组织对比度。PET 等功能图像缺乏解剖特征,但可以提供有关疾病的定量代谢和功能信息。核磁共振模式由于它依赖于可变采集参数,例如 T1 加权 (T1)、对比增强 T1 加权 (T1c)、T2 加权 (T2) 和流体衰减反转恢复 (Flair) 图像,因此可以提供补充信息。T2和Flair适合检测有瘤周水肿的肿瘤,T1和T1c适合检测无瘤周水肿的瘤核。因此,应用多模态图像可以减少信息的不确定性,提高临床诊断和分割的准确性[29]。图3描述了几种广泛使用的多模态医学图像。
在这里插入图片描述

Fig 3: 多模态医学图像,(a)-(c) 是常用的多模态医学图像,(d)-(g) 是脑 MRI 的不同序列。

早期的融合(earlier fusion)比较简单,大部分作品都是使用融合策略来做分割,重点关注后续复杂的分割网络架构设计,但没有考虑不同模态之间的关系,也没有分析如何融合不同的特征信息来提高分割性能。然而,后来的融合(later fusion)更关注融合问题,因为每个模态都被用作一个网络的输入,该网络可以学习每个模态的复杂且互补的特征信息。一般来说,与早期的融合相比,如果融合方法足够有效,后来的融合可以获得更好的分割性能。融合方法的选择取决于具体问题。

还有一些关于使用深度学习进行医学图像分析的其他评论。但是,他们并不关注融合策略。例如,Litjens 等人。[30]回顾了医学图像分析中的主要深度学习概念。伯纳尔等。[31]概述了深度 CNN 中用于脑部 MRI 分析的信息。在本文中,我们重点研究了用于医学图像分割的多模态医学图像融合方法。

本文的其余部分结构如下。在第2节中,我们介绍了深度学习和多模态医学图像分割的一般原理。在第3节中,我们介绍了如何在将数据馈送到网络之前准备数据。在第4节中,我们描述了基于不同融合策略的详细多模态分割网络。在第5节中,我们讨论了该领域中出现的一些常见问题。最后,我们总结并讨论了多模态医学图像分割领域的未来前景。

2. Deep learning based methods

2.1 Deep learning

深度学习是指具有多层非线性处理单元的神经网络[32] 。每个连续层都使用前一层的输出作为输入。网络可以通过使用这些层从大量数据中提取复杂的层次结构特征。近年来,深度学习在图像分类、识别、目标检测和医学图像分析方面取得了显着进步,产生了与人类专家相当甚至有时优于人类专家的优异结果。在已知的深度学习算法中,例如堆叠自动编码器[33] 、深度玻尔兹曼机 [34]和卷积神经网络[35],最成功的图像分割是卷积神经网络(CNN)。它于 1989 年由 LeCun 首次提出,第一个成功的实际应用[36]是 LeCun 在 1998 年的手写数字识别,他提出了一个五层全自适应架构。由于其准确性结果(2007 年手写字符数据集的错误率和拒绝率分别为 1% 和 9%),神经网络可以应用于现实世界的问题。然而,直到 Krizhevsky 等人的贡献,它才引起人们的广泛关注。到 2012 年的ImageNet 挑战。提出的 AlexNet [11],与 LeNet 相似但更深,优于所有竞争对手并通过将前 5 错误(正确类别不在前 5 预测类别中的测试示例的百分比)从 26% 减少到 15.3% 赢得了挑战。在随后的几年中,其他基于 CNN 的架构被提出,包括 VGGNet [13]、GoogleNet [14]、Residual Net [15]和 DenseNet [16],表 1描述了这些网络架构的细节。

在这里插入图片描述
CNN 是一个包含卷积层、池化层、激活层和全连接层的多层神经网络。卷积层是CNN的核心,用于特征提取。卷积运算可以根据使用的过滤器产生不同的特征图。池化层通过使用定义邻域的最大值或平均值作为值来执行下采样操作,以减小每个特征图的空间大小。非线性整流层 (ReLU) 及其修改,例如 Leaky ReLU,是最常用的激活函数 [37],它通过将任何负输入值裁剪为零来转换数据,同时将正输入值作为输出传递。全连接层中的神经元与上一层中的所有激活完全连接。它们放置在 CNN 的分类输出之前,用于在使用线性分类器进行预测之前将结果展平。在训练 CNN 架构时,该模型预测训练图像的类分数,使用选定的损失函数计算损失,最后使用梯度下降法通过反向传播更新权重。交叉熵损失是使用最广泛的损失函数和随机梯度下降之一(SGD) 是最流行的操作梯度下降的方法。

2.2 Multi-modal medical image segmentation

由于目标组织的大小、形状和位置可变,医学图像分割是医学图像分析领域最具挑战性的任务之一。尽管提出的分割网络架构多种多样,但仍然很难比较不同算法的性能,因为大多数算法是在不同的数据集上评估的,并以不同的指标报告。为了获得准确的分割并比较不同的最先进的方法,一些众所周知的分割公开挑战被创建,例如脑肿瘤分割(BraTS)[21],缺血性中风病变分割(ISLES), 1 MR 脑图像分割 (MRBrainS) [38]、新生儿脑部分割 (NeoBrainS) [39]、联合 (CT-MR) 健康腹部器官分割 (CHAOS)、2个 6 个月婴儿脑部 MRI 分割 (Iseg-2017) [40]和 3D 自动椎间盘定位和分割多模态 MR (M3) 图像 (IVDM3Seg)。3 表 2描述了上述详细的数据集信息。表 3显示了这些数据集中的主要评估指标。

在这里插入图片描述
在这里插入图片描述

表 3: 这些数据集常用的评估指标摘要。关于假阳性(FP)、真阳性(TP)、假阴性(FN)和真阴性(TN)的数量, δ S \delta S δS δ R \delta R δR是预测和真实分割的病变边界像素/体素集, d m ( v , v ) d_m (v,v) dm(v,v)和是体素v和集合v中的体素之间的欧氏距离的最小值。|X|是参考分割中的体素数,|Y|是算法分割中的体素数, X s X_s Xs Y s Y_s Ys分别是参考和算法分割的表面点集。运算符d是欧氏距离运算符。

在这里插入图片描述
我们描述了基于深度学习的多模态医学图像分割流程,如图4 所示。管道由四部分组成:数据准备、网络架构、融合策略和数据后处理。在数据准备阶段,首先选择数据维度,通过预处理减少图像间的差异,也可以采用数据增强策略增加训练数据,避免过拟合问题。在网络架构和融合策略阶段,提出了基本网络和详细的多模态图像融合策略来训练分割网络。在数据后处理阶段,一些后期处理技术,如形态学技术和条件随机场被植入以细化最终的分割结果。在多模态医学图像分割任务中,融合多种模态是该任务的关键问题。根据进行融合的网络架构层次,融合策略可分为三组:输入级融合、层级融合和决策级融合,详见第4节。

在这里插入图片描述

Fig 4: 基于深度学习的多模态医学图像分割流水线

3. Data processing

本节将描述数据处理,包括数据维度选择、图像预处理、数据增强和后处理技术。这一步在基于深度学习的分割网络中很重要。

3.1 Data dimension

医学图像分割通常处理 3D 图像。有些模型直接使用 3D 图像来训练模型[41]、[42]、[43]、[44],而有些模型则逐片处理 3D 图像[20]、[45]、[46]、[47 ] ],[48] 。3D 方法将 3D 图像作为输入并应用 3D卷积核来利用图像的空间上下文信息。主要缺点是其昂贵的计算成本。与利用整个体积图像来训练模型相比,可以使用一些 3D 小块来降低计算成本。例如,Kamnitsas 等人。[49]定期提取 10 k 个随机 3D 补丁,用于训练以分割脑部病变。2D 方法以从 3D 图像中提取的图像切片或补丁作为输入并应用 2D 卷积核,2D 方法可以有效地降低计算成本,同时它忽略了图像在 z 方向上的空间信息。例如,赵等人。[50]首先使用图像块训练 FCNN,然后使用固定 FCNN 参数的图像切片训练 CRF 作为递归神经网络,最后他们使用图像切片对 FCNN 和 CRF-RNN 进行微调。为了利用 2D 图像和 3D 图像的特征信息,Mlynarski 等人。[51]描述了一种基于 CNN 的脑肿瘤分割模型,它首先从轴向、冠状和矢状视图中提取图像的 2D 特征,然后将它们作为基于 CNN 的 3D 模型的附加输入。该方法可以在三个维度上学习到丰富的特征信息,取得了良好的性能,Dice 分数中位数分别为 0.918(整个肿瘤)、0.883(肿瘤核心)和 0.854(增强核心)。

3.2 Pre-processing

预处理在后续的分割任务中起着重要作用,特别是对于多模态医学图像分割,因为图像中存在不同的强度、对比度和噪声。因此,为了使图像看起来更相似并使网络训练平滑和可量化,在馈入分割网络之前应用了一些预处理技术。典型的预处理技术包括图像配准、偏置场校正和强度归一化。对于 BraTS 数据集,图像registration在提供给公众之前已经完成[20] , [45] , [49] , [50] , [52]. 使用 N4ITK 方法校正 MRI 数据的失真[19]、[20]、[41]、[45]、[48]、[49]。建议通过减去平均值并除以大脑区域的标准差来独立地标准化每个患者的每个模态。

3.3 Data augmentation

大多数时候,由于多种原因,大量的训练标签不可用。标记数据集需要该领域的专家,这是昂贵且耗时的。当从有限的训练数据训练大型神经网络时,需要考虑过拟合问题[53]。数据增强是一种减少过度拟合和增加训练数据量的方法。它通过转换(旋转、平移、缩放、翻转、扭曲和添加一些噪声,如高斯噪声)训练数据集中的图像来创建新图像。原始图像和创建的图像都被输入神经网络。例如,Isensee 等人。[41]提出通过使用多种数据增强技术来解决过度拟合问题,例如随机旋转、随机缩放、随机弹性变形、伽马校正增强和训练期间的动态镜像。

3.4 Post-processing

[54]应用后处理来细化分割网络中的最终结果。尺寸小的孤立分割标签容易出现伪影,最大的体积通常保留在最终分割中。在这种情况下,首选形态学技术来去除不正确的小片段并保留最大的体积。并且可以根据检测区域的结构设计一些后处理技术。例如,考虑到 LGG 患者可能没有增强肿瘤,Isensee 等人。[42]如果预测的增强肿瘤的数量小于阈值,建议用坏死替换所有增强的肿瘤体素。因为如果在预测分割中存在假阳性体素,而在地面实况中没有增强肿瘤出现,将导致 Dice 得分为 0。参考文献中的另一个案例。 [49],一个3D完全连接的条件随机场(CRF)被应用于后处理,以有效地去除误报以细化分割结果。

4. Multi-modal segmentation networks

多年来,已经提出了各种半自动化和自动化技术用于使用基于深度学习的方法进行多模态医学图像分割,例如 CNN [36]和 FCN [17] ,尤其是 U-Net [18]。根据多模态融合策略,我们将网络架构分为输入级融合网络、层级融合网络和决策级融合网络,对于每种融合策略,我们总结了一些常用的方法,如图5所示。

在这里插入图片描述

Fig 5: 融合策略的一般分类。

4.1 Input-level fusion network

在输入级融合策略中,多模态图像作为多通道输入逐通道融合,学习融合特征表示,然后训练分割网络。现有的多模态医学图像分割网络大多采用输入级融合策略,将原始输入空间中的多模态图像直接融合[20]、[41]、[42]、[45]、[48 ] ] , [49] , [50] , [55] , [56]。图 6描述了输入级融合分割网络的通用网络架构。我们将 CT 和 MRI 作为两种输入模式,卷积神经网络作为分割网络,脑肿瘤分割作为分割任务。通过使用输入级融合策略,可以在从第一层到最后一层的所有层中充分利用来自不同模态的丰富特征信息。这种融合通常使用四种技术,多任务分割、多视图分割、多尺度分割和基于 GAN 的分割。

在这里插入图片描述

Fig 6: 输入级融合的通用网络架构。

仅举几例,Wang 等人[48]提出了一种使用 BraTS 数据集将脑肿瘤分割为三个子区域的多模态分割网络,包括整个肿瘤、肿瘤核心和增强肿瘤核心。它使用多任务和多视图技术。为了获得统一的特征集,它直接将四种模态(MRI 的 T1、T1c、T2 和 Flair)集成为输入空间中的多通道输入。然后它根据脑肿瘤的层次结构将复杂的多类分割任务分成几个更简单的分割任务。首先分割整个肿瘤,然后分割边界框包括整个肿瘤用于肿瘤核心分割。基于获得的肿瘤核心边界框,最终对增强肿瘤核心进行分割。此外,为了利用 3D 上下文信息,对于每个单独的任务,他们通过平均单个任务的 softmax 输出来融合来自三个不同正交视图(轴向、冠状和矢状)的分割结果。在 BraTS 2017 数据测试集上的实验表明,该方法在增强肿瘤核心、全肿瘤和肿瘤核心方面的平均 Dice 分数分别为 0.7831、0.8739 和 0.7748,在 BraTS 2017 挑战赛中获得第二名。

周等[57]还提出了 BraTS 数据集上的多任务分割网络,它在输入空间中逐个通道地融合多模态 MR 图像以学习融合特征表示。与遭受网络复杂性并忽略三个顺序分割任务之间的相关性的[48]分割相比,它将脑肿瘤分割分解为三个不同但相关的任务。每个任务都有一个独立的卷积层,一个分类层,一个损失层和不同的输入数据。基于课程式学习(Curriculum Learning)[58],这意味着逐渐增加训练任务的难度,他们采用了一种有效的策略来提高模型的收敛质量,即只训练第一个任务直到损失曲线趋于平坦,然后将第一个数据和第二个数据沿着批次维度作为第二个任务的输入。第三个任务的操作和第二个一样。这样,不仅模型参数而且训练数据都从更容易的任务转移到更困难的任务。所提出的方法在 BRATS 2015 测试集上排名第一,并在 BRATS 2017 数据集上取得了最佳性能。

在分割图像中的不同区域时,可能需要不同的感受野。例如,大区域可能需要以牺牲精细细节为代价的大感受野,而小区域可能需要高分辨率的局部信息。秦等[43]提出了自动对焦卷积层通过使用多尺度处理来增强神经网络的能力。在输入空间中整合多模态图像后,他们通过使用多个具有不同扩张率的卷积层来应用自动聚焦卷积层来改变感受野的大小。自动对焦卷积层可以在处理图像的不同位置时指示每个尺度的重要性。此外,他们使用注意力机制来选择最佳规模。所提出的自动对焦层可以很容易地集成到现有网络中,以提高模型的性能。所提出的方法在盆腔 CT 中的多器官分割和 MRI 中的脑肿瘤分割等具有挑战性的任务上获得了有希望的性能。

受到生成对抗网络 (GAN) [59]成功的推动,它模拟了生成器和鉴别器之间的最小最大博弈,一些方法提出将鉴别器作为额外约束来提高分割性能 [60],[ 61]。在参考文献中[60],通过融合多模态图像作为多通道输入,他们训练了两个独立的网络:一个残差 U-net 作为生成网络和一个鉴别器网络,分割网络将生成一个分割,而鉴别器网络将区分生成的分割和地面实况掩码。鉴别器是一个包含三个 3D 卷积块的浅层网络,每个块后跟一个最大池化层。为了获得稳健的分割,他们通过轮廓向模型引入了额外的约束。豪斯多夫距离地面真实轮廓和预测轮廓之间的差异被用作相异性的度量。所提出的方法在 BraTS 2018 数据集上进行了评估并取得了有竞争力的结果,表明可以通过在轮廓和对抗训练中加入额外的约束来改进原始分割结果。霍等[61]使用 PatchGAN [62]作为额外的鉴别器来监督网络的训练过程。由于判别器的额外约束,基于GAN的方法可以获得鲁棒的分割,但训练额外的判别器需要更多的内存。

输入级融合策略可以最大程度地保留原始图像信息,学习到图像的内在特征。使用顺序分割网络允许采取不同的策略,例如多任务、多视图、多尺度和基于 GAN 的分割网络,以充分利用多模态图像的特征表示。

4.2 Layer-level fusion

在层级融合策略中,单个或两个模态图像作为单个输入来训练个体分割网络,然后将这些学习到的个体特征表示融合在网络的层中,最后将融合结果馈送到决策层得到最终的分割结果。层级融合网络可以有效地整合和充分利用多模态图像[44]、[46]、[63]、[64]。图 7描述了层级融合分割工作的通用网络架构。

在这里插入图片描述

Fig 7: 层级融合的通用网络架构。
仅举几例,我们还以多序列 MRI 中的脑肿瘤分割来说明这种融合。众所周知,T1加权MRI和T1c适合分割无瘤周水肿的瘤核,而T2和Flair适合分割瘤周水肿。陈等[63]提出了一种双通路多模态脑肿瘤分割网络。第一条路径使用T2和Flair提取相关特征从背景中分割出整个肿瘤,第二条路径使用T1和T1c训练相同的分割网络学习其他相关特征表示,然后将特征从两条路径被融合并最终被送入四级 softmax分类器分割背景、ED、ET 和 NCR/NET。双通路分割网络可以利用不同模态的有效特征信息,获得准确的分割结果。

多尔兹等人[44]提出了一种基于 DenseNets 的 3D 全卷积神经网络,将密集连接的定义扩展到多模态分割。每个成像模态都有一条路径,并且在同一路径和不同路径中的层中都存在密集连接。因此,所提出的网络可以学习模态之间更复杂的特征表示。针对两个不同且竞争激烈的多模式脑组织分割挑战的广泛实验结果:iSEG 2017 [40]和 MRBrainS 2013 [38],表明所提出的方法比许多其他最先进的分割网络产生了显着改进,在两个基准测试中均名列前茅。

灵感来自 Ref. [44],多尔兹等人[46]提出了一种用于多模态 MRI 中IVD(椎间盘)定位和分割的架构。每个 MRI 模式都在相应的单一路径中处理,以更好地利用其特征表示。该网络在每条路径内和不同路径之间都紧密相连,从而使模型可以自由学习应在何处以及如何处理和组合不同的模态。它还通过使用两个具有不同尺度的扩张卷积的卷积块扩展初始模块来改进标准 U-Net 模块,以帮助处理多尺度上下文信息。

总而言之,在层级融合分割网络中,DenseNets 是常用的网络,它带来以下三个好处。首先,所有层之间的直接连接有助于改善整个网络中的信息流和梯度,从而缓解梯度消失的问题。其次,架构中所有特征图的短路径引入了隐式深度监督。第三,密集连接具有正则化效果,可以降低在训练集较小的任务上过度拟合的风险。因此,DenseNets 可以提高层级融合分割网络的有效性和效率。在层级融合分割网络中,不同层之间的连接可以捕获模态之间的复杂关系,充分利用多模态图像的特征表示。

4.3 Decision-level fusion

在决策级融合分割网络中,与层级融合一样,每个模态图像被用作单个分割网络的单个输入。单个网络可以更好地利用相应模态的独特信息。然后将整合各个网络的输出以获得最终的分割结果。决策级融合分割网络旨在独立学习来自不同模态的互补信息,因为由于图像采集技术不同,多模态图像在其原始图像空间中几乎没有直接的互补信息。图 8描述了层级融合分割工作的通用网络架构。

在这里插入图片描述

Fig 8: 决策级融合的通用网络架构。
例如,为了有效地利用来自 T1、T2 和分数各向异性 (FA) 模态的多模态,Nie 等人[47]提出了一种新的多 FCN 网络架构,用于婴儿脑组织分割(白质(WM)、灰质(GM)和脑脊液(CSF))。他们不是简单地组合来自输入空间的三种模态数据,而是为每种模态训练一个网络,然后融合来自每个网络高层的多种模态特征。结果表明,所提出的模型在准确性方面明显优于以前的方法。

对于决策级融合,已经提出了许多融合策略[64]。其中大部分基于平均和多数表决。对于平均策略,Kamnitsas 等人[52]分别训练三个网络,然后对各个网络的置信度进行平均。通过为每个体素分配最高置信度来获得最终分割。对于多数表决策略,体素的最终标签取决于各个网络的大多数标签。

不同模态的统计特性不同,这使得单个模型很难直接找到跨模态的相关性。因此,在决策级融合分割网络中,可以训练多个分割网络以充分利用多模态特征。艾格等人[65]在记忆和性能方面研究了脑肿瘤分割问题的不同融合方法。在内存使用方面,决策级融合策略需要更多的内存,因为模型稍后会融合特征,并且层需要更多的参数来执行卷积和其他操作。然而,后期融合可以获得更好的性能,因为与输入级融合网络相比,每种模态都被用作一个网络的输入,该网络可以学习复杂且互补的特征信息。

5. Common problems

5.1 Over-fitting

医学图像分割的一个限制是数据稀缺,通常会导致过度拟合,即模型在训练数据集上表现良好但在新数据上表现不佳。大多数时候,用于训练的大量标签无法用于医学图像分析,因为对数据集进行标签需要该领域的专家,而且耗时且有时容易出错。在训练数据有限的复杂神经网络时,必须特别注意防止过度拟合。神经网络模型的复杂性由其结构和参数定义。因此,我们可以通过减少层数或参数来降低网络架构的复杂性,或者专注于人为增加训练数据数量的方法,而不是改变网络架构[32],[66] 。后者通常用于通过执行数据转换和相应的 ground truth来生成新的合成图像,包括缩放、旋转、平移、亮度变化、弹性变形、水平翻转和镜像操作(详情请参阅第3.3节数据增强)。

5.2 Class imbalance

医学图像分析的主要挑战之一是处理不平衡数据。在医学影像领域,问题更加突出。例如,对于脑肿瘤或白质病变的分割,正常脑区域大于异常区域。使用类不平衡数据进行训练会导致分割网络不稳定,该网络偏向于具有大区域的类。表 4说明 BraTS 2017 训练数据中的类别分布,正数(NEC/NET、ED 和 ET)和负数(背景)高度不平衡,背景压倒性优势。因此,损失函数的选择在分割网络中至关重要,尤其是在处理高度不平衡的问题时。我们提出了几种类型的损失函数,它们在医学图像分割网络中单独或组合广泛使用。从数据层面来看,可以通过对数据空间进行重采样来解决这个问题。主要有三种方法:负类欠采样[67]或负类上采样[68]和SMOTE(合成少数过采样技术)[69]沿着连接少数类样本的线段生成合成样本。这些方法很容易遵循,但它们可能会删除一些重要数据或向训练集中添加冗余数据。
在这里插入图片描述
基于补丁采样的方法还可以缓解不平衡数据问题。例如,Kamnitsas 等[49]提出了平衡策略来缓解类不平衡问题。他们提取的训练补丁有 50% 的概率在病变或健康体素上运行。克莱格斯等[56]使用以病变为中心的策略,其中所有训练补丁都是从以病变体素为中心的区域中提取的。此外,随机偏移量被添加到采样 475 点以避免位置偏差,其中损伤体素总是预期在补丁中心,然后有助于一些数据扩充。

至于算法级别,Havaei 等人[19]提出了一个两阶段训练程序。它首先构建一个补丁数据集,通过考虑所有类别的多样性,使所有标签都是等概率的,然后仅重新训练输出层以正确校准输出概率。这样,类不平衡问题就被克服了。另一种方法包括使用多任务分割[48]、[57]、[63]、[70]将复杂的多类分割任务分解为几个简单的任务,因为每个训练任务只分割一个区域,其中标签分布将比一次分割多个类更不平衡。一些方法通过组合相同或不同的分类器来提高它们的泛化能力,通过集成学习来解决类不平衡问题 [71]。否则,损失函数也可以通过修改训练数据的分布来缓解这个问题。我们将它们介绍如下:

交叉熵 (CE) 损失:交叉熵损失函数最常用于图像分割任务。它由等式(1)计算得出。因为交叉熵损失单独评估每个像素向量的类预测,然后对所有像素进行平均,所以如果图像中存在不平衡的类表示,这可能会导致一些错误。龙等[17]建议对每个输出通道的损失函数进行加权或采样,以缓解类不平衡问题。
在这里插入图片描述
加权交叉熵 (WCE):由于背景区域在训练集中占主导地位,因此将多个类别的权重纳入交叉熵中是合理的,定义如下[32]:
在这里插入图片描述
Dice Loss ( DL ): Dice 损失是医学图像分割的一种流行损失函数,它是预测样本与真实样本之间重叠的度量。该度量的范围从 0 到 1,其中 Dice 分数为 1 表示完全重叠,定义如下[72]:
在这里插入图片描述
广义骰子 (GDL): Sudre 等人[73]提议使用 (4) 中定义的 Generalized Dice overlap 的类再平衡属性作为不平衡任务的稳健且准确的深度学习损失函数。作者研究了在 2D 和 3D 分割任务中存在不同标签不平衡率的情况下 Dice 损失、交叉熵损失和广义骰子损失函数的行为。结果表明 GDL 比其他损失函数更稳健
在这里插入图片描述
Focal Loss ( FL ): Focal loss最初是为检测任务引入的。它鼓励模型降低简单示例的权重,并将训练重点放在硬否定上。形式上,Focal 损失是通过向交叉熵损失引入调制因子和类平衡参数来定义的[74]:
在这里插入图片描述

6. Discussion and conclusion

在上面的部分中,我们介绍了大量基于深度学习的最先进的多模态医学图像分割网络。它们总结在表 5中。对于 BraTS 挑战,这些方法是从 2013 年开始总结的,因为深度学习方法是从 2013 年开始应用的。用于分割任务的公开可用的多模态医学图像数据集很少见,使用最多的数据集是 2012 年以来提出的 BraTS 数据集。对于它们的分割,目前最好的方法是在参考文献中提出的。 [55],他们使用输入级融合策略直接整合输入空间中的不同模态,他们将 CNN 的编码器 - 解码器结构与附加的 VAE(变分自动编码器)分支结合到编码器部分。VAE 分支可以重建输入图像并更好地利用编码器端点的特征。它还为编码器部分提供额外的指导和正则化。作者证明,更复杂的数据增强技术、数据后处理技术或更深的网络不会进一步提高网络性能,这意味着网络架构在分割网络中比其他数据处理操作起着至关重要的作用。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对于多模态医学图像分割,融合策略对于获得准确的分割结果起着重要作用。传统的图像融合策略学习源图像和目标图像之间的直接映射,融合策略由两个基本阶段组成:活动水平测量和融合规则[79]. 活动水平测量是通过设计局部滤波器来提取高频细节来实现的,然后使用一些设计的规则来比较不同源图像的计算清晰度信息以获得清晰度图像。为了获得更好的性能,这些问题变得越来越复杂,因此很难手动提出一个充分关注重要问题的理想融合策略。为此,基于深度学习的网络可以直接对映射进行编码。基于深度学习的方法在三个方面表现出色。首先,基于深度学习的网络为图像数据学习复杂抽象的层次特征表示,以克服手动特征设计的困难。第二,基于深度学习的网络可以通过使用分层网络层来呈现不同模态之间的复杂关系,例如层级融合策略。三、常规融合策略中的图像变换融合策略可以通过训练一个深度学习模型,通过这种方式可以研究一些潜在的深度学习网络架构,以设计有效的图像融合策略。因此,基于深度学习的方法具有产生比传统方法更好的融合结果的巨大潜力。

选择有效的深度学习融合策略仍然是一个重要的问题。在 2013-2018 BraTS Challenge 中,所有的方法都采用了输入级融合,直接在输入空间中融合不同的 MR 图像,简单且能够保留图像的固有特征,使方法能够专注于后续的分割网络架构设计,例如多任务、多视图、多尺度和基于 GAN 的策略。虽然该策略只是连接输入空间中的模态,但它并没有利用不同模态之间的关系。对于层级融合,由于层与层之间连接密集,融合策略往往以DenseNet为基础网络。不同层之间的连接可以捕获模态之间的复杂关系,与直接在输入空间中集成不同模态相比,这可以帮助分割网络学习到更多有价值的信息并获得更好的性能。对于决策级融合策略,与输入级融合相比,它可以获得更好的性能,因为每个模态都被用来训练单个网络来学习独立的特征表示,而这需要大量的内存和计算时间。与后两种融合策略相比,层融合策略似乎更好,因为层之间的密集连接可以利用更复杂和互补的信息来增强网络训练,而决策层融合仅学习单模态的独立特征表示。由于三种融合策略的结果不是从同一个数据中得到的,他们在性能方面的比较是困难的。从方法论上讲,每种策略都有其优点和缺点。

尽管我们观察到这些基于深度学习的融合策略的优势,但基于之前的工作,我们仍然可以观察到在基于深度学习的多模态医学图像分割中有一些锁需要解除。众所周知,多模态融合网络在分割任务方面通常比单模态网络表现更好。问题是如何融合不同的模式以获得精确分割的最佳折衷。因此,如何设计多模态网络以有效地组合不同模态,如何利用不同模态之间的潜在关系,以及如何将多信息集成到分割网络中以提高分割性能可能是未来工作的主题。

其他问题涉及数据。首先,由于难以获得大量的医学图像数据,有限的训练数据很容易导致过度调整。为了解决这个问题,降低网络架构的复杂性或增加训练数据的数量已被证明可以缓解这个问题。二、用不平衡数据训练可能导致不稳定的分割网络,尤其是小病变或结构分割。对数据空间进行重采样、使用两阶段训练程序、仔细的路径采样和适当的损失函数是克服该问题的建议策略。第三,与深度学习的常见问题一样,如果没有数据增强或其他优化技术,很难用原始有限数据训练深度网络。因此,设计更快的方法来执行卷积和适当的优化方法可以帮助训练有效的分割网络。向公众发布源代码正在成为计算机视觉社区的普遍做法。我们在表 5中指出了可用的代码. 这种做法有助于加快该领域的研究。另一个推荐的做法是在不同的数据集上验证模型,这可以为设计可应用于类似应用程序的数据集的稳健模型打开大门。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值