U-Net: Convolutional Networks for Biomedical Image Segmentation论文翻译

最新推荐文章于 2022-06-23 05:38:43 发布

彼时云歌杳

最新推荐文章于 2022-06-23 05:38:43 发布

阅读量653

点赞数

分类专栏：论文阅读文章标签：深度学习神经网络

原文链接：https://arxiv.org/pdf/1505.04597.pdf

版权

论文阅读专栏收录该内容

22 篇文章 2 订阅

订阅专栏

U-Net：
1）架构：收缩路径和扩展路径
在这里插入图片描述
2）特点：
1.语义分割
2.overlap-tile策略
3.使用弹性变形进行数据扩充
4.使用权重损失来分离相同类的接触对象
3）实验：
2015 ISBI细胞跟踪挑战赛第一名

摘要

人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，它依赖于数据扩充的充分使用，以更有效地使用可用的带注释的样本。该体系结构由捕获上下文的收缩路径和支持精确定位的对称扩展路径组成。我们证明这样的网络可以在非常少的图像上进行端到端的训练，并且在ISBI挑战中在电子显微镜栈中神经结构的分割上胜过先前的最佳方法(滑动窗口卷积网络)。我们使用相同的网络训练透射光学显微镜图像(相位对比和DIC)，在2015年ISBI细胞跟踪挑战赛中，我们以巨大优势获胜。此外，网络是快速的。在最近的GPU上，512x512图像的分割需要不到一秒的时间。完整的实现(基于Caffe)和经过培训的网络可以在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上找到。

1. 介绍

在过去的两年中，深度卷积网络在许多视觉识别任务中的表现都超过了当前的技术水平，例如[7,3]。虽然卷积网络已经存在很长时间了，但是由于可用训练集的大小和考虑的网络的大小，它们的成功是有限的。Krizhevsky等人对[7]的突破是由于对一个8层的大网络进行了监督训练，在100万张训练图像的ImageNet数据集上有数百万个参数。从那时起，甚至更大更深的网络被训练成[12]。
卷积网络的典型用法是在分类任务中，图像的输出是单个类标签。然而，在许多视觉任务中，特别是在生物医学图像处理中，需要的输出应该包括定位，即类标签应该被分配给每个像素。此外，成千上万的训练图像通常超出了生物医学任务的范围（训练样本不够）。因此，Ciresan等人[1]在滑动窗口设置中训练一个网络，通过提供该像素周围的局部区域(patch)作为输入来预测每个像素的类标签。首先，这个网络可以定位。其次，以patch表示的训练数据远远大于训练图像的数量。由此产生的网络在2012年ISBI会议上以较大优势赢得了电子显微分类挑战。
显然，Ciresan等人的策略[1]有两个缺点。首先，它非常慢，因为每个patch都必须单独运行网络，而且由于重叠的补丁存在大量冗余。其次，定位的准确性和上下文的使用之间需要权衡。更大的patch需要更多的最大池化层，这会降低定位精度，而小的patch只允许网络看到很少的上下文。最近的一些方法[11,4]提出了一种考虑多层特征的分类器输出。好的定位和上下文的使用是可以同时进行的。
在本文中，我们构建了一个更好的架构，即所谓的“全卷积网络”[9]。我们修改和扩展了这个架构，使它工作在非常少的训练图像上，并能产生更精确的分割。参见图1。[9]（FCN）的主要思想是通过连续层来补充通常的收缩网络，其中池化操作被上采样操作符取代。因此，这些层增加了输出的分辨率。为了进行定位，收缩路径的高分辨率特征与上采样输出相结合。然后，一个连续的卷积层可以学习根据这些信息组装更精确的输出。
我们架构中的一个重要修改是，在上采样部分，我们还有大量的特征通道，这些通道允许网络将上下文信息传播到更高分辨率的层。因此，扩展路径或多或少与收缩路径对称，并产生一个u型架构。网络没有任何全连接的层，只使用每个卷积的有效部分，即分割映射只包含在输入图像中提供完整上下文的像素。该策略允许通过overlap-tile策略对任意大的图像进行无缝分割(见图2)。为了预测图像边界区域的像素，通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型图像非常重要，否则分辨率将受到GPU内存的限制。(为什么作为一种全卷积神经网络不直接输入整张图像，还在做分块呢？由于内存限制，图像需要分块或resize，但resize会降低图像分辨率，故分块)
在这里插入图片描述
在我们的任务中，可用的训练数据非常少，我们通过对可用的训练图像应用弹性变形来获得大量的数据扩充。这使得网络可以学习这些变形的不变性，而不需要在带注释的图像语料库中查看这些转换。这在生物医学分割中尤为重要，因为变形曾经是组织中最常见的变化，而真实的变形可以有效地模拟。Dosovitskiy等人的[2]研究表明，在无监督特征学习的范围内，数据增强对学习不变性很有价值。
在许多细胞分割任务中的另一个挑战是分离相同类的接触对象，参见图3。为此，我们建议使用权重损失，即接触细胞之间的分离背景标签在损失函数中获得较大的权重。
在这里插入图片描述
得到的网络适用于各种生物医学分割问题。在这篇论文中，我们展示了在电子显微镜EM栈(一个正在进行的竞争始于ISBI 2012)中神经元结构的分割结果，我们在这方面的表现优于Ciresan等人的[1]网络。此外，我们在2015年ISBI细胞追踪挑战赛的光镜图像中展示了细胞分割的结果。在这里，我们以巨大优势在两个最具挑战性的2D透射光数据集上赢得胜利。

2. 网络架构

在这里插入图片描述

网络架构如图1所示。它由收缩路径(左侧)和扩展路径(右侧)组成。收缩路径遵循典型的卷积网络架构。它包括重复应用两个3x3的卷积(无填充卷积)（每个卷积后面都有一个修正的线性单元(ReLU)）和一个2x2的最大池化操作（其中stride 2）用于下行采样。每次下采样后，我们将特征通道的数量增加一倍。每一步的扩张路径由一个2x2卷积（特征通道数量减半）后接上采样操作(“up-convolution”)、与收缩路径中相应裁剪的连接和两个3x3的卷积（每一个后面都有ReLU）组成。裁剪是必要的，因为在每次卷积中边界像素都会丢失。在最后一层，使用1x1卷积将每个64维的特征向量映射到所需的类数（如2类）。网络总共有23个卷积层。
为了允许输出分割映射的无缝平铺(参见图2)，必须选择输入平铺的大小，以便将所有2x2最大池化操作应用到具有均匀x和y大小的层。

3. 训练

利用Caffe[6]的随机梯度下降实现，利用输入图像及其对应的分割映射训练网络。由于未经填充的卷积，输出图像比输入图像的边界宽度要小一个常数。为了最小化开销并最大限度地利用GPU内存，我们倾向于使用大的输入块而不是大的batch，所以将批处理减少到单个图像。因此，我们使用一个高动量(0.99)，以便大量先训练样本确定当前优化步骤中的更新（提高先样本的影响）
能量函数的计算采用像素级的soft-max，结合交叉熵损失函数对最终特征图进行处理
soft-max
在这里插入图片描述
其中a是激活值，p是预测值，k代表类别，x代表像素位置
然后交叉熵在每个位置惩罚pl(x)(x)（每个像素真实标签的概率）与1的偏差

其中l是每个像素的真实标签，w是一个权重映射，我们引入它是为了在训练中赋予某些像素更多的重要性。
我们预先计算了每个分割金标准的的权值映射，以补偿训练数据集中某个类的不同像素频率，并使网络学习我们在接触单元之间引入的小的分离边界(如图3c和d所示)。
分割边界是使用形态学操作来计算的。权重映射计算如下：
在这里插入图片描述
其中，wc是用来平衡类频率的权重映射，d1是到个最近的细胞边界的距离，d2是到第二个最近的细胞边界的距离。实验中，我们设w0=10，σ约5像素
在具有多个卷积层和不同网络路径的深度网络中，良好的权值初始化是非常重要的。否则，网络的某些部分可能会提供过多的激活，而其他部分则不会提供任何帮助。理想情况下，初始权值应该调整，使网络中的每个特征图具有近似单位方差。对于我们这种结构的网络(交替的卷积层和ReLU层)，这可以通过从一个标准偏差为根号(2/N)的高斯分布中提取初始权值来实现，其中N表示一个神经元[5]的传入节点数。例如，对于前一层的3x3卷积和64个特征通道，N = 9×64 = 576。

3.1 数据增广

当只有很少的训练样本可用时，数据增广是向网络传授所需的不变性和鲁棒性的关键。对于显微镜下的图像，我们首先需要的是平移和旋转的不变性，以及对变形和灰度值变化的鲁棒性。特别是，训练样本的随机弹性变形似乎是训练带有少量样本的分割网络的关键概念。我们使用随机位移矢量在粗糙的3×3网格上生成平滑变形。位移按高斯分布采样，标准差为10像素。然后使用双三次插值计算每个像素的位移。收缩路径末端的dropout层执行进一步的隐式数据扩充。

4. 实验

我们演示了u-net在三个不同的分割任务中的应用。第一个任务是电子显微记录中神经元结构的分割。图2显示了一个数据集示例和我们获得的分割结果。我们提供完整的结果作为补充资料。数据集是由EM分割挑战[14]提供的，该挑战始于2012年ISBI会议，目前仍对新的贡献开放。训练数据是一组30张果蝇一龄幼虫腹神经索(VNC)连续切片透射电镜图像(512x512像素)。每个图像都配有相应的完全注释的细胞(白色)和细胞膜(黑色)的金标准分割地图。测试集是公开的，但其分割映射是保密的。通过将预测的膜概率图发送给组织者，可以得到评价。评估是通过在10个不同的水平上对映射进行阈值化和计算“扭曲误差”、“随机误差”和“像素误差”[14]来完成的。
u-net(平均超过7个旋转版本的输入数据)在没有进一步预处理或后处理的情况下获得了0.0003529的扭曲误差(新的最佳值，见表1)和0.0382的随机误差。
在这里插入图片描述
这比Ciresan等人[1]的滑动窗口卷积网络结果好得多，Ciresan等人[1]的最佳提交扭曲误差为0.000420,随机误差误差为0.0504。在随机误差方面，在这个数据集上唯一性能更好的算法是将高度数据集特定的后处理方法应用于Ciresan等人的概率图[1]
在这里插入图片描述
我们也将u-net应用到光镜下的细胞分割任务中。这项分割任务是2014和2015年ISBI细胞跟踪挑战的一部分[10,13]。第一组数据集“PhC-U373”包含胶质母细胞瘤-星形细胞瘤U373细胞，其位于聚丙烯酰亚胺基质上，通过相衬显微镜记录(见图4a、b和补充材料)。它包含35个部分注释的训练图像。这里我们的平均IOU达到92%，明显优于第二名的算83%(见表2)。第二个数据集“DIC-HeLa”是三海拉细胞在平板玻璃(DIC)微分干涉对比显微镜记录的(参见图3,图4c, d和补充材料)。它包含20个部分注释的训练图像。在这里，我们实现了77.5%的平均IOU，明显好于第二好的算法(46%)。
在这里插入图片描述

5. 结论

u-net架构在非常不同的生物医学分割应用上取得了非常好的性能。由于数据增加与弹性变形，它只需要非常少的注释图像，并有一个非常合理的训练时间（只有10小时），在NVidia Titan GPU (6gb)上训练。我们提供完整的基于Catte[6]的实现和已训练的网络。我们确信u-net体系结构可以很容易地应用于更多的任务

彼时云歌杳

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
U-Net: Convolutional Networks for Biomedical Image Segmentation论文翻译

U-Net：1）架构：收缩路径和扩展路径2）特点：1.语义分割2.overlap-tile策略3.使用弹性变形进行数据扩充4.使用权重损失来分离相同类的接触对象3）实验：2015 ISBI细胞跟踪挑战赛第一名文章目录摘要1. 介绍2. 网络架构3. 训练3.1 数据增广4. 实验5. 结论摘要人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一...
复制链接

扫一扫