U-Net

最新推荐文章于 2024-04-25 16:20:37 发布

studyeboy

最新推荐文章于 2024-04-25 16:20:37 发布

阅读量668

点赞数

分类专栏：深度学习文章标签： U-Net

本文链接：https://blog.csdn.net/studyeboy/article/details/118192254

版权

深度学习专栏收录该内容

73 篇文章 26 订阅

订阅专栏

U-Net和FCN非常相似，它们的结构用了一个比较经典的编码和解码（encoder-decoder）思路，U-Net比FCN稍晚提出来，但都发表在2015年，和FCN相比：

U-Net是完全对称的，左边和右边是很类似的，而FCN的decoder相对简单，只用了一个Deconvolution的操作，之后并没有跟上卷积结构。
skip connection，FCN用的是加操作（summation），U-Net用的是叠操作（concatenation）。

U-Net这个结构提出的主要作用并不是分割，而是压缩图像和去噪声。输入是一幅图像，经过下采样的编码，得到一串比原先图像更小的特征，相当于压缩，然后再经过一个解码器，理想状况就是能还原到原来的图像。这样存在一幅图像的时候就只需要存一个特征和一个解码器即可。

降采样对于分割网络到底是不是必须的？

降采样可以增加对输入图像的一些小扰动的鲁棒性，比如图像平移、旋转等，减少过拟合的风险，降低运算量，增加感受野的大小。
升采样最大的作用就是把抽象的特征再还原解码到原图的尺寸，最终得到分割结果。

U-Net的结构是先编码（下采样）再解码（上采样）的U型结构，保持输入和输出大小一样。神经网络层数越深，其特征图尺寸越小，其包含的语义信息越丰富，而损失了物体的位置信息；再结合FPN的思想把大特征图中包含的位置信息与小特征图中包含的语义信息concat起来，就弥补了定位精度和语义信息间的tradeoff。
在这里插入图片描述
从上图看到整体的网络结构类似U型，其左边和右边分别为Encoder和Decoder过程。

Encoder：左半部分，由两个3x3的卷积层（ReLU）+2x2的max pooling层（stride=2）反复组成，每经过一层下采样，通道数翻倍；
Decoder：右半部分，由一个2x2的上采样卷积层（ReLU）+Concatenation（crop对应的Encoder层的输出feature map然后与Decoder层的上采样结果相叠加）+2个3x3的卷积层（ReLU）反复构成；
最后一层通过一个1x1卷积将通道数变成期望的类别数。

在对图片进行训练或预测时，使用overlap-title策略。度图像的某一块像素点（黄框内部分）进行预测时，需要输入网络的图片必须是蓝色框大小的图片，因为网络采用valid卷积，输出一定会比输入小。这样黄框的图像边界周围没有像素，相比边界补0操作，对周围像素进行镜像扩充更能够弥补丢失的边缘信息。蓝色框中的像素是通过以黄框边界为中心线镜像操作填充的。
在这里插入图片描述
深度卷积神经网络中降采样的方法：

stride大于1的pooling
pooling提供了一种非线性，这种非线性需要较深的conv叠加才能实现，因此当网络比较浅的时候，pooling有一定优势；但是当网络很深的时候，多层叠加的conv可以学到pooling所能提供的非线性，甚至能根据训练学习到比pooling更好的非线性，因此当网络比较深的时候，不使用pooling没多大关系，甚至更好。
pooling的非线性是固定的，不可学习的，这种非线性其实就是一种先验。
stride大于1的conv
用stride=2的conv降采样的卷积神经网络效果与使用pooling降采样的卷积神经网络效果相当；卷积神经网络小的时候，使用pooling降采样效果可能更好，卷积神经网络大的时候，使用stride=2的conv降采样效果更好。
stride大于1的reorg（reorganization改组整顿），由Joseph Redmond在YOLOv2中首次提出。
reorg降采样的优势在于能够较好的保留低层次的信息，pooling和conv的降采样方式，好处是抽取的特征具有更强的语义性，坏处是会丢失一些细节信息。reorg方式与pooling和conv方式相反，它提取的特征语义性不强，但是能保留大量细节信息。所以当既需要降采样，又需要不丢失细节信息的时候，reorg是一个非常合适的选择。

为了增强模型的效果，都会融合低层和高层的信息，这样融合后的特征既具有高层特征的抽象语意信息，又具有低层特征的细节信息。而低层特征feature map比高层特征feature map大，为了融合，需要将高层特征feature map放大到跟低层特征feature map一样大，放大feature map的过程就是升采样（upsample）过程。

上采样的三种方式：

UnPooling
UnPooling操作与MaxPooling操作是对应的，在MaxPooling时记录每一个保留元素的位置，在UnPooling时将元素在之前保留的位置填充，其余位置补0即可。
UpSampling
插值方式包括最近邻（nearest-neighbor）插值、双线性插值（bilinear）、双立方插值（bicubic）。
- nearest-neighbor
  最近邻插值，是指将目标图像中的点，对应到源图像中后，找到最相邻的整数点，作为插值后的输出。如下图所示，P为目标图像对应到源图像中的点，Q11、Q12、Q21、Q22是P点周围的4个整数点，Q12与P距离最近，因此P点的值等于Q12的值。由于图像中像素具有邻域相关性，因此，用这种方法会产生明显的锯齿。
- bilinear interpolation
  双线性插值使用周围4个点插值得到输出，双向性插值，是指在xy方向上，都是基于线性距离来插值的，如上图所示，目标图像中的一个点对应到源图像中点P（x，y），先在x方向上插值：
  
  然后，进行y方向插值：
  
  可以验证，先进行y方向插值再进行x方向插值，结果也是一样的。双线性插值在单个方向上是线性的，但对整福图像来说是非线性的。
- bicubic
  
  双三次曲线插值方法计算量较大，但后的图像效果最好。
- 各种插值方式的区别与联系
  从nearest interpolation、bilinear interpolation到bicubic interpolation，插值所利用的信息越来越多，feature map越来越平滑，但是同时计算量也越来越大，nearest interpolation、bilinear interpolation、bicubic interpolation的区别与联系可见下图所示，其中黑色的点为预测值，其他彩色点为周围已知值，用来计算预测值。
反卷积
卷积操作是将大的特征图经过卷积核的遍历之后变成小的特征图（无padding的情况下）。反卷积操作是先将小的特征图通过一定的插值方式变为大的特征图，再进行正常卷积。
- stride=1
  等价于stride=1的conv，只是padding的方式不同，不能起到升采样的作用。以一维的数据为例，示意图如下，中间的步骤是将卷积转换为矩阵乘法的过程。
- stride>1
  能起到升采样的作用，一般用到的deconv，stride都大于1。以一维的数据为例，示意图如下，中间步骤是将卷积转换为矩阵乘法的过程。
deconv和插值的区别与联系
deconv和插值都是通过周围像素点来预测空白像素点的值，区别在于同一个权重由认为预先定义的公式计算，一个通过数据驱动来学习。

UNet++把原来空心的U-Net填满了，优势是可以抓取不同层次的特征，将他们通过特征叠加的方式整合，不同层次的特征，或者说不同大小的感受野，对于大小不一的目标对象的敏感度是不同的，比如，感受野大的特征，可以很容易的识别出大物体的，但是在实际分割中，大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢了，这个时候就可能需要感受野小的特征来帮助。原先的U-Net，横着看就很像Residual的结构，UNet++对于U-Net分割效果提升可能和DenseNet对于ResNet分类效果的提升，原因如出一辙，因此，在解读中参考了Dense Connection的一些优势，例如特征的再利用等等。
在这里插入图片描述
Net++的第一个优势就是精度的提升，这个应该它整合了不同层次的特征所带来的，第二个是灵活的网络结构配合深监督，让参数量巨大的深度网络在可接受的精度范围内大幅度的缩减参数量。

参考资料
研习U-Net
卷积-转置卷积-空洞卷积-深度可分离卷积-分组卷积-可变形卷积
 unet 层_【语义分割】——UNet / 论文笔记
 双三次插值算法(bicubic interpolation)与图形学和计算方法的关系
 图像上采样 & 图像处理中常见的插值方法
 U-Net: Convolutional Networks for Biomedical Image Segmentation
深度学习系列（四）分割网络模型（FCN、Unet、Unet++、SegNet、RefineNet)
深度卷积神经网络中的降采样（part2）

studyeboy

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
U-Net

U-Net和FCN非常相似，它们的结构用了一个比较经典的编码和解码（encoder-decoder）思路，U-Net比FCN稍晚提出来，但都发表在2015年，和FCN相比：U-Net是完全对称的，左边和右边是很类似的，而FCN的decoder相对简单，只用了一个Deconvolution的操作，之后并没有跟上卷积结构。skip connection，FCN用的是加操作（summation），U-Net用的是叠操作（concatenation）。U-Net这个结构提出的主要作用并不是分割，而是压缩图
复制链接

扫一扫

专栏目录