U-net 论文翻译（只有一半，自己看）

Unet：卷积神经网络在医学图片分割的应用

摘要：人们普遍认为深度神经网络需要大量的带标签的样本（数千个）进行训练。在本论文中，我们提出了一个网络和训练策略，更有效的利用了数据，以便更有效地使用可用的带标签的样本。我们使用数据扩张的方法(data augmentation)。由两部分组成：一个收缩路径(contracting path)来获取context information以及一个对称的扩张路径(expanding path)用以精确定位。（The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization.）我们发现这个神经网络使用很少的图片就可以进行端对端的训练（end-to-end ）。并且，在ISBI里的电镜下神经元结构的分割挑战中优于之前的方法 (a sliding-window convolutional network)。用这个的网络训练透射电子显微镜图片 (phase contrast and DIC)我们以很大的优势赢得了2015年ISBI的细胞跟踪挑战（ISBI cell tracking challenge）。然后这个神经网络很快。在最新型的GPU上，512x512图像的分割时间不到一秒。全部的成果和训练好的神经网络可以在(http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net)上获得（基于caffe）。

1 引言

在前两年里，卷积神经网络在许多视觉识别任务中，超过了其他技术水平，例如文献[7,3]，然而卷积神经网络已经存在了很长一段时间[8]。因为训练集的规模有限，还要考虑的网络的规模，卷积神经网络一直没有受到重视。Krizhevsky等人[7]于在具有100万张训练图像的ImageNet数据集上对具有8层和数百万个参数的大型网络进行了监督训练。从那之后，很多深度网络都完成了训练。
卷积网络的典型利用是用在分类任务上，其中，图像的输出是单个类标签。然而，在许多视觉任务中，特别是在生物医学图像处理中，希望每个像素的输出应该是多个标签（localization, i.e., a class label）。此外，在生物医学任务中，训练成千上万的图像是不可能的。因此，Ciresan等人[1]训练神经网络（a network in a sliding-window），通过提供像素周围的局部区域（patches）作为输入,来预测每个像素的类标签。

首先，这个网络可以局部化（localize）。其次，从补丁（patches）的角度看，训练数据比训练图像的数量要大得多。这个产生的网络赢得了在2012年的ISBI里的 EM segmentation 挑战。

明显，ciresan等人的方法[1]有两个缺点。首先，它很慢，因为网络必须为每个补丁单独运行，有许多冗余重复的补丁（patches）。其次，localization accuracy和the use of context之间不能全都兼顾。大的补丁（ Larger patches）需要更多的最大池（ max-pooling）层，从而降低局部的准确性。虽然小补丁只能使网络只看到很少的context。最近的方法[11,4]提出了一个考虑到多层特征的分类器输出。使Good localization和 the use of context同时兼顾有了可能。

在本文中，我们建立在一个更好的架构上，它叫“全卷积网络”（fully convolutional network）[9]。我们修改和扩展了这个架构，使其能够处理很少的训练图像就能产生更精确的分割。如下图。
在这里插入图片描述
U-net体系结构(例如32x32像素的最低分辨率)。每个蓝色框对应一个多通道特征映射。通道的数量表示在框的顶部。x-y大小设置在盒子的左下角.白色框表示复制的功能地图。箭头表示不同的操作。

文献[9]主要想法是用连接层（successive layers）来补充普通的神经网络，其中池操作（ pooling operators）被upsampling 操作代替。因此，这些层提高了输出的分辨率（these layers increase the resolution of the output）。为了使用局部的信息（localize），将收缩路径中的高分辨率特征作为上层的输出（upsampled output）。（In order to localize, high resolution features from the contracting path are combined with the upsampled output）连续卷积层能根据这些信息学习综合，做出更精确的输出。

我们架构中的一个重要修改是，在上采样部分，我们也有大量的特征通道(feature channels)，这使得网络能够将context information传播到更高分辨率的层（higher resolution layers）结果是，扩张路径基本对称于收缩路径，形成了一个U型的结构。这个网络不存在任何全连接层(fully connected layers)，并且，只使用每个卷积的有效部分。例如，分割图(segmentation map)只包含这样一些像素点，这些像素点的完整的context 都出现在输入图像中。该方法允许通过overlap-tile方法对任意大的图像进行无缝分割(见下图) 在这里插入图片描述
overlap-tile方法用于对任意大图像进行无缝分割(这里是对em堆栈中神经元结构的分割)。预测黄色区域的分割，需要输入蓝色区域内的图像数据。缺失的输入数据是通过镜像法（mirroring）推算得到的。