U-Net论文笔记

麻花地

已于 2022-06-28 11:36:11 修改

阅读量2.2k

点赞数 1

分类专栏：深度学习环境深度学习框架经典论文阅读文章标签：深度学习机器学习计算机视觉

于 2022-04-12 11:29:24 首次发布

本文链接：https://blog.csdn.net/charles_zhang_/article/details/124119353

版权

经典论文阅读同时被 3 个专栏收录

75 篇文章 15 订阅

订阅专栏

深度学习框架

52 篇文章 4 订阅

订阅专栏

深度学习环境

42 篇文章 3 订阅

订阅专栏

U-Net论文笔记

U-Net: Convolutional Networks for Biomedical Image Segmentation

官网教学视频（需要挂梯子）：
https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-teaser.mp4
或者去我的资源下载
https://download.csdn.net/download/charles_zhang_/85114968

Abstact

人们普遍认为，成功地训练深层网络需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于强大的数据增强功能，以更有效地使用可用的带注释样本。该体系结构包括一个用于捕获上下文的收缩路径和一个能够精确定位的对称扩展路径。我们证明，这种网络可以从很少的图像中进行端到端的训练，并且在ISBI挑战中，在电子显微镜堆栈中的神经元结构分割方面优于先前的最佳方法（滑动窗口卷积网络）。通过使用在透射光学显微镜图像（phase contrast and DIC）上训练的同一网络，我们在2015年的ISBI细胞追踪挑战赛中以较大的优势赢得了这些类别的比赛。此外，网络速度很快。在最近的GPU上，512x512图像的分割不到一秒钟。完整的实施（基于Caffe）和经过培训的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.

注：基于pytorch版本如下：
https://github.com/milesial/Pytorch-UNet

1、Introduction

在过去两年中，深度卷积网络在许多视觉识别任务中的表现超过了最新水平，例如[7,3]。虽然卷积网络已经存在很长时间[8]，但由于可用训练集的大小和考虑的网络的大小，它们的成功是有限的。Krizhevsky等人[7]的突破是由于在ImageNet数据集上对一个包含8层和数百万参数的大型网络进行了监督训练，该数据集包含100万张训练图像。从那时起，人们训练了更大、更深的网络[12]。

卷积网络的典型用途是分类任务，其中图像的输出是单个类别标签。然而，在许多视觉任务中，尤其是在生物医学图像处理中，期望的输出应该包括定位，即应该为每个像素分配一个类别标签。此外，在生物医学任务中，数千张训练图像通常是遥不可及的。因此，Ciresan等人[1]在滑动窗口设置中训练了一个网络，通过提供像素周围的局部区域（补丁）来预测每个像素的类别标签作为输入，首先，这个网络可以本地化。其次，基于patches的训练数据远大于训练图像的数量。由此产生的网络以巨大的优势赢得了2012年ISBI的EM细分挑战。

显然，Ciresan等人[1]的策略有两个缺点。首先，它非常慢，因为每个patch都必须单独运行网络，而且由于重叠的patch，存在大量冗余。其次，在定位准确性和语境使用之间存在权衡。较大的patch需要更多的最大池层，这会降低定位精度，而较小的patch只允许网络看到很少的上下文。最近的方法[11,4]提出了一种分类器输出，该输出考虑了来自多个层的特征。良好的本地化和语境的使用是可能的。

在本文中，我们构建了一个更优雅的体系结构，即所谓的“完全卷积网络”[9]。我们修改和扩展了这个架构，使得它可以处理很少的训练图像，并产生更精确的分割；参见图1。[9]中的主要思想是通过连续的层来补充通常的承包网络，在这些层中，池化操作被上采样操作取代。因此，这些层提高了输出的分辨率。为了定位，将收缩路径的高分辨率特征与上采样相结合输出（网络结构核心），一个连续的卷积层可以学习根据该信息组装更精确的输出。

我们架构中的一个重要修改是，在上采样部分，我们还有大量的特征通道，允许网络将上下文信息传播到更高分辨率的层（将前面学习到的特征直接拼接到后面）。因此，扩展路径或多或少与收缩路径对称，并产生u形结构。网络没有任何完全连接的层，只使用每个卷积的有效部分，即分割图只包含像素，输入图像中有完整的上下文。该策略允许通过overlap-tile（重叠平铺）策略对任意大的图像进行无缝分割（见图2）。为了预测图像边界区域中的像素，通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型图像非常重要，否则分辨率将受到GPU内存的限制。

对于我们的任务，可用的训练数据非常少，我们通过对可用的训练图像应用弹性变形来使用过度的数据增强。这使得网络能够学习这种变形的不变性，而不需要在注释图像语料库中看到这些变换。这在生物医学分割中尤其重要，因为变形曾经是组织中最常见的变化，可以有效地模拟真实的变形。**Dosovitskiy等人[2]**在无监督特征学习的范围内展示了数据增强对学习不变性的价值。

许多细胞分割任务中的另一个挑战是touching objects of the same class（分离同一类别的触摸对象）；参见图3。为此，我们建议使用weighted loss，即触摸单元之间的分离背景标签在损失函数中获得较大权重。

由此产生的网络适用于各种生物医学分割问题。在这篇论文中，我们展示了EM堆栈中神经元结构分割的结果（ISBI 2012年开始的一项持续竞争），我们在那里完成了Ciresan等人的网络[1]。此外，我们还展示了2015年ISBI细胞追踪挑战赛的光学显微镜图像中的细胞分割结果。在这两个最具挑战性的2D透射光数据集上，我们以巨大的优势获胜。

2、Network Architecture

网络架构如图1所示。它由收缩路径（左侧）和扩张路径（右侧）组成。收缩路径遵循卷积网络的典型结构。它包括重复应用两个3x3卷积（(unpadded的卷积），每个卷积后面都有一个校正的线性单元（ReLU）和一个2x2最大池运算，步长2用于下采样。在每个下采样步骤中，我们将特征通道的数量增加一倍。扩展路径中的每一步包括特征映射的上采样，然后是2x2卷积（“上卷积”），将特征通道的数量减半，与收缩路径中相应裁剪的特征映射进行串联，以及两个3x3卷积，每个卷积后面都有一个ReLU。由于每次卷积都会丢失边界像素，因此需要进行裁剪。在最后一层，使用1x1卷积将每个分量特征向量映射到所需的类别数。该网络共有23个卷积层。

为了实现输出分割图的无缝平铺（参见图2），选择输入tile大小非常重要，这样所有2x2 max pooling操作都将应用于x和y大小均匀的层。

3、Training

利用Caffe的随机梯度下降实现，使用输入图像及其相应的分割图来训练网络[6]。由于未添加卷积，输出图像比输入图像小一个恒定的边界宽度。为了最大限度地减少开销并最大限度地利用GPU内存，我们倾向于使用较大的输入块，而不是较大的批处理大小，从而将批处理减少到单个图像。因此，我们使用高动量（0.99），以便大量之前看到的训练样本确定当前优化步骤中的更新。

放原文，公式太多，这一段主要是说soft-max激活函数，可忽略

我们预先计算每个ground truth分割的权重图，以补偿训练数据集中某类像素的不同频率，并迫使网络学习我们在触摸单元之间引入的小分离边界（见图3c和d）。

使用形态学运算计算分离边界。然后，将权重映射计算为：

其中：Ω → R是平衡课堂频率的权重图，d1：Ω → R表示到最近单元边界的距离，d2：Ω → R到第二个最近单元格边界的距离。在我们的实验中，我们设定w0=10和σ≈ 5像素。

在具有许多卷积层和通过网络的不同路径的深度网络中，权重的良好初始化非常重要。否则，网络的某些部分可能会提供过度激活，而其他部分则不会提供。理想情况下，应调整初始权重，使网络中的每个特征映射具有近似单位方差。对于采用我们架构的网络（交替卷积和ReLU层），这可以通过从标准偏差为2/N开方的高斯分布中提取初始权重来实现，其中N表示一个神经元的传入节点数[5]。例如，对于前一层中的3x3卷积和64个特征通道，N=9·64=576。

3.1 Data Augmentation

当只有很少的训练样本可用时，数据增强对于训练网络所需的不变性和鲁棒性特性至关重要。对于显微图像，我们主要需要平移和旋转不变性，以及对变形和灰度变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练具有很少注释图像的分割网络的关键概念。我们使用3×3的粗网格上的随机位移向量生成平滑变形。位移从标准偏差为10像素的高斯分布中采样。然后使用双三次插值计算每像素的位移。收缩路径末端的Drop-out层执行进一步的隐式数据扩充。

4、Experiments

我们展示了u-net在三种不同的分割任务中的应用。第一项任务是在电子显微镜记录中分割神经元结构。图2显示了数据集和我们获得的分割的示例。我们提供完整的结果作为补充材料。该数据集由2012年ISBI启动的EM分段挑战[14]提供，目前仍在接受新的贡献。训练数据是一组30幅（512x512像素）的图像，来自果蝇一龄幼虫腹神经索（VNC）的连续切片透射电子显微镜。每幅图像都带有相应的完整注释的细胞（白色）和细胞膜（黑色）的基本真相分割图。测试集是公开的，但其分割图是保密的。通过将预测的膜概率图发送给组织者，可以获得评估结果。通过在10个不同级别对地图进行阈值化，并计算the “warping error”, the “Rand error” and the “pixel error”来进行评估[14]。

u-net（平均输入数据的7个旋转版本 ）在没有任何进一步的预处理或后处理的情况下实现了0.0003529的Warping Error （新的最佳分数，见表1）和0.0382的Rand Error。

这比Ciresan等人[1]的滑动窗口卷积网络结果要好得多，后者的最佳提交值的Warping Error为0.000420，Rand Error为0.0504。就Rand Error而言，唯一表现更好的该数据集上的算法使用了适用于Ciresan等人[1]概率图的高度特定于数据集的后处理方法1（该算法的作者提交了78种不同的解决方案来实现这一结果）。

我们还将u-net应用于光镜图像中的细胞分割任务。该分离任务是2014年和2015年ISBI细胞追踪挑战赛的一部分[10,13]。第一个数据集**“PhC-U373”**（Sanjay Kumar博士提供的数据集。加州大学伯克利分校生物工程系。加州伯克利（美国））包含相衬显微镜记录的在聚丙烯酰亚胺基质上的胶质母细胞瘤星形细胞瘤U373细胞（见图4a、b和补充材料）。它包含35个部分注释的训练图像。在这里，我们实现了92%的平均IOU（“联合交集”），这明显优于83%的次优算法（见表2）。第二个数据集“DIC HeLa”3是通过差分干涉对比（DIC）显微镜记录的平板玻璃上的HeLa细胞（见图3、图4c、d和补充材料）。它包含20个部分注释的训练图像。在这里，我们实现了77.5%的平均IOU，这明显优于46%的次优算法。

5、Conclusion

u-net体系结构在非常不同的生物医学分割应用程序上实现了非常好的性能。得益于数据的弹性增强，它只需要很少的带注释的图像，在NVidia Titan GPU（6GB）上的训练时间只有10小时，这是非常合理的。我们提供完整的基于Caffe[6]的实现和经过培训的网络4。我们确信u-net体系结构可以轻松地应用于更多任务。

麻花地

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
U-Net论文笔记

U-Net论文笔记U-Net: Convolutional Networks for Biomedical Image Segmentation官网教学视频（需要挂梯子）：https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-teaser.mp4或者去我的资源下载https://download.csdn.net/download/charles_zhang_/85114968Abstact人们普遍认为，成功地训练
复制链接

扫一扫

专栏目录