图像分割（七）：模型（U-Net、U-Net++）

最新推荐文章于 2024-08-02 06:53:48 发布

米之炼金术师

最新推荐文章于 2024-08-02 06:53:48 发布

阅读量9k

点赞数 9

分类专栏：计算机视觉深度学习图像分割文章标签：神经网络计算机视觉深度学习 cv 人工智能

本文链接：https://blog.csdn.net/hehuaiyuyu/article/details/105676549

版权

本文介绍了U-Net和U-Net++两种图像分割模型，主要用于医学图像分割。U-Net通过对称结构和跳跃连接实现精确分割，而U-Net++通过密集的跳跃连接和更深的网络结构优化特征提取。U-Net++解决了U-Net的某些局限，适应不同大小目标的分割任务，同时引入了深监督和可剪枝的特性。

摘要由CSDN通过智能技术生成

这是2015年，与FCN同一年提出的网络模型，U-Net主要解决的是医学领域的图像分割问题，由于其网络结构为一个U型，故名为U-Net。

这是一个对称的生成模型，左边部分下采样进行特征提取，右边部分上采样，将浓缩的特征还原为图像。

从这个网络中可以看到，输入是一个572x572的，输出却是388x388的，输出比输入要小，这主要是因为医学领域分割的需要，这样做精度更高。

其模型继承FCN的思想改进而来，但是相较于FCN其有许多改进：

U-Net是完全对称的，且对解码器进行了加卷积加深处理，FCN只是单纯的进行了上采样，decoder部分相对简单。
上采样的时候，使用了邻近插值，没有使用转置卷积。原因：转置卷积会使输出图像不均匀，出现象棋格子一样的黑白相间的效果（生成类模型使用该方法效果不好，尤其是卷积核为奇数的时候，转置卷积时，如果卷积核大小不能被步长整除，就会有棋盘格子的现象，如果步长和卷积核大小一致，就是完全均匀的）
跳跃连接使用了concat操作，将特征在channel维度拼接在一起，形成更厚的特征，将全局特征和局部特征进行结合，而不是简单的相加。
全程使用valid进行卷积（包括pooling），这样的话可以保证分割的结果都是基于没有缺失的上下文特征得到的，因此输入输出的图像尺寸不太一样。

这里有一些问题需要注意：

跳跃连接大小不一样如何拼接？

一般有3种思路：

这里采用的是第3中crop的方法。

为什么输出会比输入更小？

因为这个模型是专为医学图像而生，有两点原因：

从卷积上来看，由于卷积核边缘信息提取不够，为了减少误差，提高可信度，所以直接把外层信息裁剪掉了
Overlap-tile策略：像是下图，由于医学图像一般都很大，进行分割的时候不可能把原图输入网络，所以需要进行裁剪，把大图变成一张张的小图，而为了使图片拼接的部分分割得更加准确，从而采用了Overlap-tile策略，也就是有重叠的裁剪，具体可以看图中的解释，U-Net网络从输入到输出，需要overlap部分提供更多特征信息，将大图分割成小图的影响降到最低，最后标签也就是输出这么大，所以两者可以做损失，蓝色框就相当于这么大的一个卷积核。