浙大提出U-Net 3+：全尺度的跳跃连接的UNet

最新推荐文章于 2025-04-06 00:00:00 发布

Amusi（CVer）

最新推荐文章于 2025-04-06 00:00:00 发布

阅读量7.3k

点赞数 5

文章标签：计算机视觉人工智能深度学习机器学习 deep learning

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文转载自：集智书童

前言：U-Net由Olaf Ronneberger等人在在2015年MICCAI上提出。U-Net在神经元结构分割方面取得了巨大的成功，由于功能在层之间传播，因此其框架是突破性的。后续在U-Net的基础上涌现了许多优秀的架构如：U-Net++，Attention U-Net，U2-Net等，今天我们将介绍新的U-Net结构：U-Net+++。

本文是关于UNet+++的简要回顾。通过增强U-Net架构，在多个数据集上U-NET 3+性能优于Attention UNET，PSPNet，DeepLabV2，DeepLabV3和DeepLabv3 +。这是发表2020 ICASSP的一篇论文，UNet++使用嵌套和密集跳过连接，但它没有从全尺度探索足够的信息。在 UNet 3+ 中，使用了全面的跳过连接和深度监督：

全尺度跳跃连接：将来自不同尺度特征图的低级细节与高级语义结合起来。
全尺度的深度监督：从全尺度聚合特征图中学习分层表示。
进一步提出了混合损失函数和分类引导模块（CGM）

UNet 3+提供更少的参数，但可以产生更准确的位置感知和边界增强的分割图。

论文：UNet 3+: A Full-Scale Connected UNet for Medical Image Segmentation

论文链接：https://arxiv.org/abs/2004.08790

代码链接：https://github.com/ZJUGiveLab/UNet-Version

全尺度跳跃连接

U-Net，U-Net++， U-Net3+ 结构图：

左：UNet，中UNet++，右：UNet 3+

无论是普通的连接U-Net还是密集连接的U-Net ++都缺乏从全尺度探索足够信息的能力，因此不能明确地得知器官的位置和边界。
U-Net 3+ 中的每个解码器层都融合了来自编码器的较小和相同尺度的特征图以及来自解码器的较大尺度的特征图，它们捕获了全尺度下的细粒度语义和粗粒度语义。

全尺度跳跃连接示例

为了构建特征图，类似于U-NET，直接接收来自相同尺度编码器层的特征图。
与U-Net 相比，一组编码器-解码间跳跃连接通过非重叠最大池化操作将来自较小尺度编码器层和进行池化下采样，以便传递底层的低级语义信息。
通过一系列内部解码器跳跃连接利用双线性插值传输来自大尺度解码器层和的高级语义信息。
UNet 3+ 中的参数少于UNet和UNet++ 中的参数。（这里有数学证明，有兴趣的可以阅读论文。）

全尺度的深度监督

2.1 深度监督

UNet 3+ 从每个解码器阶段（Sup1 到 Sup5）产生一个切分侧边输出，由真实的分类结果监督。
为了实现深度监督，每个解码器阶段的最后一层被送入一个普通的 3 × 3 卷积层，然后是一个双线性上采样和一个 sigmoid 函数。

2.2 损失函数

多尺度结构相似性指数 (MM-SSIM) 损失用于为模糊边界分配更高的权重。
Focal loss起源于RetinaNet，用于处理类不平衡问题。
使用标准IoU 损失。
因此，开发了一种混合损失用于在三级层次结构（像素级、补丁级和图片级）中进行分割，它能捕获大尺度的和精细结构清晰的边界，混合分割损失被定义为:

2.3. 分类引导模块 (CGM)

具有分类引导模块 (CGM) 的全面深度监督

非器官图像中存在误报。这可能是由于来自背景的噪声信息保留在较浅层中，导致过度分割现象。
为了解决这个问题，增加了一个额外的分类任务，用于预测输入图像是否有器官。如在上面的图所示，经过一系列的操作包括dropout,卷积,maxpooling,sigmoid, 最后有两个值代表有/没有器官的概率，最深层次的二维张量，其中每一个代表的有/无器官的概率。
在argmax 函数的帮助下，二维张量被转换为 {0,1} 的单个输出，表示有/无器官。
随后，单分类输出与侧分割输出相乘。由于二值分类任务的简单性，该模块通过优化二值交叉熵损失函数，轻松获得准确的分类结果，实现了对非器官图像过分割的指导。

实验结果

3.1 Datasets

肝脏分割数据集来自ISBI LiTS 2017 Challenge。它包含 131 幅对比增强的 3D 腹部 CT 扫描，其中 103 卷和 28 卷分别用于训练和测试。
来自医院的脾脏数据集，包含 40 和 9 个 CT 卷用于训练和测试。
图像被裁剪为 320×320。

3.2 与UNet和UNet++的比较

肝脏和脾脏数据集

测试了VGGNet和ResNet主干。没有深度监督的 UNet 3+ 实现了超越UNet和UNet++ 的性能，在两个数据集上执行的两个主干之间获得了 2.7 和 1.6 点的平均改进。UNet 3+结合全面深度监督进一步提升0.4分。

紫色区域：真阳性（TP）；黄色区域：假阴性（FN）；绿色区域：假阳性 (FP)。

UNet3+不仅能准确定位器官，还能产生连贯的边界，即使是在小物体的情况下。

3.3 与其他方法比较

肝脏和脾脏数据集

所有结果直接来自单模型测试，不依赖任何后处理工具。
通过考虑像素级、补丁级、地图级优化，所提出的混合损失函数极大地提高了性能。
此外，UNet 3+利用分类指导模块（CGM），巧妙地避免了复杂背景下的过度分割。
最后，UNET 3+性能优于Attention UNET，PSPNet，DeepLabV2，DeepLabV3和DeepLabv3 +。

CVPR和Transformer资料下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集
后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF
CVer-医学图像交流群成立
扫码添加CVer助手，可申请加入CVer-医学图像 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如医学图像+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看