文章摘要
人们普遍认为,成功地训练深度网络需要上千个带标签的训练样本。本文中提出了一种网络和训练策略,该策略依赖于数据增强的强大使用,以更有效地利用可用的带标签的样本。该体系结构由一个捕获上下文信息的收缩路径和一个支持精确定位的对称拓展路径组成。本文证明了这种网络可以利用非常少的图像进行端到端的训练,并且在ISBI挑战中在电子显微镜堆栈下神经结构的分割优于以往最佳的方法(如滑动窗口卷积网络)。使用在透射光显微镜图像上训练的网络,以巨大的优势赢得了2015年ISBI细胞跟踪挑战赛。此外,该网络速度非常快,在最新的GPU上,对512x512大小的图像进行分割所需的时间不到一秒钟。 1. 引言在过去的两年中,深度卷积网络在视觉识别任务中取得了高水准的表现,但是其成功受制于可用训练集的大小与网络的尺寸。卷积网络的典型用法是在分类任务中,其图像的输出是单个类标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,期望的输出应该包括定位,即类别标签应该被分配给每个像素。
然而生物医学任务中通常无法获得数千张训练图像。因此,Ciresan等人在滑动窗口设置中训练网络,通过提供该像素周围的局部区域作为输入来预测每个像素的类别标签。首先,该网络可以定位。其次,局部块方面的训练数据远大于训练图像的数量。由此产生的网络在2012年ISBI上以较大的优势赢得了EM分割挑战赛。
显然,Ciresan等人的策略有两个缺点。首先,它很慢,因为每个补丁程序都必须单独运行网络,而且由于补丁重叠而存在大量的冗余。其次,定位准确性与上下文的使用之间存在着权衡。较大的补丁需要更多的最大池化层,从而会降低定位精度,而较小的补丁使网络只能看到很少的上下文。
在本文中构建了一个更优雅的架构,即所谓的“全卷积网络”。通过对这种架构进行修改和扩展,使它能够只需很少的训练图像就可以产生更精确的分割。如图1所示。全卷积网络的主要思想是通过连续层补充普通的收缩网络,其中的池化操作被上采样操作替换。因此,这些层提高了了输出的分辨率。为了进行定位,将收缩路径中的高分辨率特征与上采样输出相结合。然后,后续卷积层可以基于该信息学习组装更精确的输出。
图1. U-Net架构
架构中的一个重要修改部分是在上采样中还有大量的特征通道,这些通道允许网络将上下文信息传播到具有更高分辨率的层。因此,拓展路径或多或少地与收缩路径对称,并产生一个U形结构。在该网络中没有任何完全连接的层,并且仅使用每个卷积的有效部分,即分割映射仅包含在输入图像中可获得完整上下文的像素。该策略允许通过重叠平铺策略对任意大小的图像进行无缝分割,如图2所示。为了预测图像边界区域中的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型的图像非常重要,否则分辨率将受到GPU内存的限制。 图2. 对任意大型图像进行无缝分割的重叠平铺策略 对于可用训练数据非常少的情况,可以通过对可用的训练图像应用弹性变形来进行数据增强。这使得网络学习这种变形的不变性,而不需要在标注图像语料库中看到这些变形。这在生物医学分割中尤其重要,因为变形曾是组织中最常见的变化,并且可以有效地模拟真实的变形。许多细胞分割任务中的另一个挑战是分离同一类的接触目标,如图3所示。为此建议使用加权损失,其中在接触单元之间分开的背景标签在损失函数中获得较大的权重。
图3. 使用DIC(微分干涉对比)显微镜观察到的HeLa细胞。(a)原始图像。(b)覆盖的实际分割。不同的颜色代表不同的HeLa细胞。(c)生成分割掩码(白色:前景,黑色:背景)。(d)以像素损失权重的映射来迫使网络学习边界像素。
由此产生的网络适用于各种生物医学分割问题。在本文中展示了EM堆栈中神经元结构的分割结果,其表现优于其它的网络。此外还展示了2015年ISBI细胞追踪挑战赛的光学显微镜图像中的细胞分割结果,在两个最具挑战性的2D透射光数据集上以巨大的优势赢得了比赛。 2. 训练输入图像与其对应的分割图被用来训练网络,通过Caffe随机梯度下降实现。由于未填充卷积,输出图像比输出图像小一个恒定的边框宽度。为了最大程度地减少开销并最大程度地利用GPU内存,倾向于在大批量数据的情况下使用大的输入图像块,从而将批量数据减少到单张图像。
当只有少量训练样本可用时,数据增强对于向网络传授所需的不变性和鲁棒性至关重要。对于显微图像,主要需要平移和旋转不变性,以及对变形和灰度值变化的鲁棒性,尤其是训练样本的随机弹性形变是训练具有少量标注图像分割网络的关键概念。本文中使用在3x3的粗网格上的随机位移矢量来生成平滑形变,从具有10个像素标准偏差的高斯分布中采样位移,然后使用双三次插值计算每个像素的位移,收缩路径末端的dropout层进一步执行隐式数据增强。
3. 实验在本文中演示了U-Net在三个不同分割任务中的应用。第一项任务是在电子显微记录中分割神经元结构。图2显示了数据集样本以及获得的分割实例。数据集由EM分割挑战赛提供,测试集是公开可获得的,但其分割图像是保密的。通过在十个不同级别上对映射进行阈值化并计算“warping误差”,“随机误差”和“像素误差”来进行评估。U-Net无需任何进一步的预处理或后处理即可获得0.0003529的warping误差和0.0382的随机误差,如表1所示。
表1. EM细分挑战的排名,按warping误差排序 在实验中还将U-Net应用于光学显微图像中的细胞分割任务,这个分割任务是2014年和2015年ISBI细胞跟踪挑战赛的一部分。第一个数据集包含35个部分标注的训练图像,如图4a,b所示。取得了较高的平均IOU,明显高于次优算法,如表2所示。第二个数据集包含20个部分标注的训练图像,同时也取得了远超于次优算法的成绩,如图3,图4c,d所示。 表2. ISBI细胞跟踪挑战赛的分割结果(IOU)图4. ISBI细胞跟踪挑战赛的结果。(a)“PhC-U373”数据集输入图像的一部分。(b)分割结果(青色掩码)和实际结果(黄色边框)。(c)“DIC-HeLa”数据集的输入图像。(d)分割结果(随机颜色掩码)和实际结果(黄色边框)。
4. 结论U-Net架构在不同的生物医学分割应用中实现了非常好的性能。由于借助具有弹性形变的数据增强功能,它只需要少量的的带标注的图像,并且在NVidia Titan GPU(6 GB)上仅需要10个小时的训练时间。