UNET详解和UNET++介绍（零基础）

最新推荐文章于 2025-04-04 23:33:51 发布

小睿羊今天好好学习了吗

最新推荐文章于 2025-04-04 23:33:51 发布

阅读量3.3w

点赞数 60

分类专栏：论文解读文章标签：卷积神经网络计算机视觉算法网络卷积

本文链接：https://blog.csdn.net/qq_41105449/article/details/106651278

版权

一·背景介绍

背景介绍：
自2015年以来，在生物医学图像分割领域，U-Net得到了广泛的应用，目前已达到四千多次引用。至今，U-Net已经有了很多变体。目前已有许多新的卷积神经网络设计方式，但很多仍延续了U-Net的核心思想，加入了新的模块或者融入其他设计理念。

编码和解码，早在2006年就发表在了nature上.当时这个结构提出的主要作用并不是分割，而是压缩图像和去噪声.后来把这个思路被用在了图像分割的问题上，也就是现在我们看到的FCN或者U-Net结构，在它被提出的三年中，有很多很多的论文去讲如何改进U-Net或者FCN，不过这个分割网络的本质的结构是没有改动的, 即下采样、上采样和跳跃连接。
医学图像特点：
（1）图像语义较为简单、结构较为固定。我们做脑的，就用脑CT和脑MRI，做胸片的只用胸片CT，做眼底的只用眼底OCT，都是一个固定的器官的成像，而不是全身的。由于器官本身结构固定和语义信息没有特别丰富，所以高级语义信息和低级特征都显得很重要。

（2）数据量少。医学影像的数据获取相对难一些，很多比赛只提供不到100例数据。所以我们设计的模型不宜多大，参数过多，很容易导致过拟合。
（原始UNet的参数量在28M左右(上采样带转置卷积的UNet参数量在31M左右)，而如果把channel数成倍缩小，模型可以更小。缩小两倍后，UNet参数量在7.75M。缩小四倍，可以把模型参数量缩小至2M以内）非常轻量。个人尝试过使用Deeplab v3+和DRN等自然图像语义分割的SOTA网络在自己的项目上，发现效果和UNet差不多，但是参数量会大很多。

（3）多模态。相比自然影像，医疗影像是具有多种模态的。以ISLES脑梗竞赛为例，其官方提供了CBF,MTT,CBV,TMAX,CTP等多种模态的数据。比如CBF是脑血流量，CBV用于检测巨细胞病毒的。

（4）可解释性重要。由于医疗影像最终是辅助医生的临床诊断，所以网络告诉医生一个3D的CT有没有病是远远不够的，医生还要进一步的想知道，病在哪一层，在哪一层的哪个位置，分割出来了吗，能不能求体积。
图像分割是什么？
简单的来讲就是给一张图像，图像分割出一个物体的准确轮廓。也这样考虑，给出一张图像Ｉ，这个问题就是求一个函数，从I映射到Mask。求这个函数有很多方法，但是第一次将深度学习结合起来的是全卷积网络(FCN)，利用深度学习求这个函数。

二·全卷积网络(FCN)

很多分割网络都是基于FCN做改进,我们先介绍FCN的内容。

FCN介绍：
FCN是深度学习在图像分割的开山之作。在此之前深度学习一般用在分类和检测问题上。由于用到CNN，所以最后提取的特征的尺度是变小的。和我们要求的函数不一样，我们要求的函数是输入多大，输出有多大。经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全联接层＋softmax输

最低0.47元/天解锁文章