【深度学习论文】：U-Net

最新推荐文章于 2025-04-05 22:38:12 发布

置顶 CrazyVertigo

最新推荐文章于 2025-04-05 22:38:12 发布

阅读量7.7w

点赞数 34

分类专栏：深度学习论文

本文链接：https://blog.csdn.net/hduxiejun/article/details/71107285

版权

深度学习论文专栏收录该内容

14 篇文章

订阅专栏

U-Net

在深度学习应用到计算机视觉领域之前，人们使用 TextonForest 和随机森林分类器进行语义分割。卷积神经网络（CNN）不仅对图像识别有所帮助，也对语义分割领域的发展起到巨大的促进作用。

语义分割任务最初流行的深度学习方法是图像块分类（patch classification），即利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层（full connected layer），且要求固定尺寸的图像。

2014 年，加州大学伯克利分校的 Long 等人提出全卷积网络（FCN），这使得卷积神经网络无需全连接层即可进行密集的像素预测，CNN 从而得到普及。使用这种方法可生成任意大小的图像分割图，且该方法比图像块分类法要快上许多。之后，语义分割领域几乎所有先进方法都采用了该模型。

除了全连接层，使用卷积神经网络进行语义分割存在的另一个大问题是池化层。池化层不仅扩大感受野、聚合语境从而造成了位置信息的丢失。但是，语义分割要求类别图完全贴合，因此需要保留位置信息。本文将介绍两种不同结构来解决该问题。

本文介绍一种编码器-解码器结构。编码器逐渐减少池化层的空间维度，解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在快捷连接，因此能帮助解码器更好地修复目标的细节。U-Net 是这种方法中最常用的结构。

这里写图片描述

U-Net网络架构设计

这里写图片描述

卷积层的数量大约在20个左右，4次下采样，4次上采样。输入图像大于输出图像，因为在本论文中对输入图像做了镜像操作。

这里写图片描述

如上图所示，对输入图像的四周做了镜像操作，其输入图像的大小为572*572，整个网络越有20个卷积层，输出图像的大小小于输入图像的大小。

Keras实现

这里写图片描述

3个实验

在生物医学图像分割当中的应用结果
这里写图片描述

在细胞分割当中的应用
这里写图片描述

U-Net拓展应用

数据增强

在分类问题中做数据增强时不需要考虑GT，因为增强之后的GT依然是个Label不变，但是在分割问题中的GT却是个图片或者是对应的feature map，在做数据增强时候其对应的GT也要跟着变化。论文中只介绍利用扭曲的方法进行数据增强，没有给出具体的方法，利用移动最小二乘法做了一些实验实现数据增强，效果较好。

这里写图片描述