unet

最新推荐文章于 2025-03-06 17:17:09 发布

学开发的阿强

最新推荐文章于 2025-03-06 17:17:09 发布

阅读量1.8k

点赞数

分类专栏：语义分割文章标签：神经网络

原文链接：https://zhuanlan.zhihu.com/p/37496466

版权

语义分割专栏收录该内容

2 篇文章

订阅专栏

U-Net

在这里插入图片描述

摘要(侵删)

在本文中，我们提出了一种网络和训练策略，它依赖于数据扩充的强大使用，以更有效地使用可用的带注释的样本。该体系结构由捕获上下文的收缩路径和支持精确定位的对称扩展路径组成。

该结构的两个优点;

1、使用需要标记的样本数量很少；

2、网络的训练非常有效率。

1.Introduction

传统神经网络

1、其发展受限于可用的数据量和目前的网络结构；

2、传统分类神经网络****专注于分类****，但是****忽略了位置信息****（对每一个像素进行分类）；

3、（前人方案）通过提供像素周围的局部区域(补丁)来预测每个像素的类标签。这种方法的局限在于：①使用很多的图像块，同时需要每个图像块单独运行，重叠多产生冗余；②定位精度和context之间存在一个平衡，大的图像块精度不高，小的图像块感受的context比较小。

FCN(U-Net前身)

修改一个普通的逐层收缩网络（指分类网络），用上采样操作（反卷积）代替网络后部的降采样操作。因此，这些（反卷积）层增加了输出的分辨率。为了使用局部的信息，在网络收缩过程（路径）中产生的高分辨率特征，被连接到了修改后网络的上采样的结果上。在此之后，一个卷积层基于这些信息进行综合，得到更精确的结果。

与FCN不同的是：

l 我们的网络在上采样部分依然有大量的特征通道，这使得网络可以将空间上下文信息向更高的分辨率层传播。结果是，上采样路径基本对称于下采样路径，并呈现出一个U型。

l 网络不存在任何全连接层，并且，只使用每个卷积的valid部分，例如，分割图只包含这样一些像素点，这些像素点的完整上下文都出现在输入图像中。这种策略允许使用Overlap-tile策略无缝地分割任意大小的图像(参见下图)。

l 为了预测图像边界区域的像素点，我们采用镜像图像的方式补全缺失的环境像素。这个tiling方法在使用网络分割大图像时是非常有用的，因为如果不这么做，GPU显存会限制图像分辨率。

改进loss：

l 我们提出了使用一种带权重的损失(weighted loss)。

l 在损失函数中，分割相互接触的细胞会获得更大的权重

2.Network Architecture

contracting path是典型的卷积网络架构：

架构中含有着一种重复结构，每次重复中都有2个 33 卷积层（无padding）、非线性ReLU层和一个 22 max pooling层（stride为2）。（图中的蓝箭头、红箭头，没画ReLu）
每一次下采样后我们都把特征通道的数量加倍。

expansive path也使用了一种相同的排列模式：

每一步都首先使用反卷积(up-convolution)，每次使用反卷积都将特征通道数量减半，特征图大小加倍。（图中绿箭头）
反卷积过后，将反卷积的结果与contracting path中对应步骤的特征图拼接起来。（白/蓝块）
contracting path中的特征图尺寸稍大，将其修剪过后进行拼接。（左边深蓝虚线）
对拼接后的map再进行2次3*3的卷积。（右侧蓝箭头）
最后一层的卷积核大小为1*1，将64通道的特征图转化为特定类别数量（分类数量，二分类为2）的结果。（图中青色箭头）

网络总共23层。

在这里插入图片描述

3.Training

采用随机梯度下降法训练，框架是Caffe。由于卷积没有使用padding，输出图像总是比输入图像小一个恒定的宽度。为了最小化开销并最大限度地利用GPU内存，我们更喜欢大的输入图块而不是大的batch size，从而将批处理减少到单个图像。对应的我们使用了很高的momentum（0.99），这样很多之前步的训练样本也会参与到当下步下降方向的决定中。最后一层使用交叉熵函数与softmax。

采用弹性形变的方式增加数据