UNet3+(UNet+++)论文翻译与详细解读

论文下载地址: 链接

UNET 3+: A FULL-SCALE CONNECTED UNET FOR MEDICAL IMAGE SEGMENTATION

ABSTRACT

近年来,人们对基于深度学习的语义分割产生了浓厚的兴趣。UNet是一种采用编码-解码结构的深度学习网络,在医学图像分割中有着广泛的应用。结合多尺度特征是实现精确分割的重要因素之一。UNet++在UNet基础上进行改进,它是通过设计具有嵌套和密集跳过连接的体系结构。

玖零猴:U-Net+与FCN的区别+医学表现+网络详解+创新 玖零猴:UNet++解读 + 它是如何对UNet改进 + 作者的研究态度和方式

然而,它没有从多尺度中表达足够的信息,仍然有很大的改进空间。在这篇论文中,我们提出了一种新颖的UNet 3+(UNet+++),它利用了全尺度的跳跃连接(skip connection)和深度监督(deep supervisions)。全尺度的跳跃连接把来自不同尺度特征图中的高级语义与低级语义结合;而深度监督则从多尺度聚合的特征图中学习层次表示。本文所提出的方法特别适用于不同规模的器官。除了提高精度外,所提出的UNet 3+还可以减少网络参数,提高计算效率。此外,我们还进一步提出了一种混合损失函数,并设计了一个classification-guided module来增强器官边界和减少非器官图像的过度分割,从而获得更准确的分割结果。在两个数据集上验证了该方法的有效性。代码可在ZJUGiveLab/UNet-Version中找到。

关键词:分割,多尺度跳跃连接,深度监督,混合损失函数,分类

1. INTRODUCTION

医学图像中器官的自动分割是许多临床应用的关键步骤。近年来,卷积神经网络(convolutional neural networks, CNNs)得到了极大的推动,发展出了多种分割模型,如全卷积神经网络(tional neural networks, FCNs)[1]、UNet[2]、PSPNet[3]和一系列DeepLab版本[4-6]。特别是基于编码-解码结构的UNet在医学图像分割中得到了广泛的应用。它使用跳跃连接来结合来自解码器的高级语义特征图和来自编码器的相应尺度的低级语义特征图。为了避免UNet中的纯跳跃连接在语义上的不相似特征的融合,UNet++[7]通过引入嵌套的和密集的跳跃连接进一步加强了这些连接,目的是减少编码器和解码器之间的语义差距。尽管取得了良好的性能,但这种方法仍然不能从多尺度中探索足够的信息。

在许多分割研究中[1-7],不同尺度的特征图展示着不同的信息。低层次特征图捕捉丰富的空间信息,能够突出器官的边界;而高级语义特征图则体现了器官所在的位置信息。然而,当逐步下采样和上采样时,这些微妙的信号可能会逐渐稀释时。为了充分利用多尺度特征,我们提出了一种新的基于u形的体系结构,命名为UNet 3+。在该网络结构中,我们重新设计了编码器和解码器之间的相互连接以及解码器之间的内部连接,以从全尺度捕获细粒度的细节和粗粒度的语义。为了进一步从全尺寸的聚合特征图中学习层次表示法,每个边的输出都与一个混合损失函数相连接,这有助于精确分割,特别是对于在医学图像体积中出现不同尺度的器官。除了提高精度外,我们还证明了所提出的UNet 3+可以减少网络参数,提高计算效率。

为了满足医学图像分割的准确性要求,我们进一步研究了如何有效地减少非器官图像的误报。现有的方法通过引入注意力机制[8]或在推理时执行预定义的细化方法(如CRF[4])来解决这个问题。不同于这些方法,我们提出了一个分类任务来预测输入图像是否有器官,为分割任务提供了指导。

总之,我们的主要贡献有四方面:(一)设计一个新的UNet 3+来充分利用多尺度特征,引入全尺度的skip connection,该连接结合了来自全尺度特征图的低级语义和高级语义,并且参数更少;(二)进行深度监督,从全面的聚合特征图中学习层次表示,优化了混合损失函数以增强器官边界;(三)提出分类指导模块,通过图像级分类联合训练,减少非器官图像的过度分割;(四)在肝脏和脾脏数据集上进行广泛的实验,UNet 3+的表现得到了提高并且超过了很多baselines。

2. METHODS

 

v2-3142e8193f3c25c82c38dac2c49e305d_b.jpg

图1给出了UNet、UNet++和UNet 3+的简化概述。与UNet和UNet++相比,UNet 3+结合了多尺度特征,重新设计了跳跃连接,并利用多尺度的深度监督,UNet 3+提供更少的参数,但可以产生更准确的位置感知和边界增强的分割图。

2.1. Full-scale Skip Connections

所提出的全尺寸跳跃连接改变了编码器和解码器之间的互连以及解码器子网之间的内连接。无论是连接简单的UNet,还是连接紧密嵌套的UNet++,都缺乏从全尺度探索足够信息的能力,未能明确了解器官的位置和边界。为了弥补UNet和UNet++的缺陷,UNet 3+中的每一个解码器层都融合了来自编码器中的小尺度和同尺度的特征图,以及来自解码器的大尺度的特征图,这些特征图捕获了全尺度下的细粒度语义和粗粒度语义。

v2-9cf3d0f6e95cb9521326dd9f851071f1_b.jpg

玖零猴:卷积神经网络CNN(卷积池化、感受野、共享权重和偏置、特征图)

v2-3594d6bdf4433d2403f2158aa66afe4c_b.jpg

v2-3b8c89730f351301751a3f6c74f2276e_b.png

v2-a15ddcc9e7d56db868c32cd80a240fab_b.png

v2-0fd9339427186cbfc98c00998c976a80_b.png

解码部分的通道减少使得UNet3+的参数少于UNet和UNet++。(PS:这些公式我不太能理解是怎么操作的?知道的小伙伴在下方评论下~)

2.2. Full-scale Deep Supervision

在UNet++中用到了深度监督(Deep supervision),如下图所示UNet++的深度监督,它对生成的全分辨率特征图(全分辨率=最后分割图的分辨率)进行深度监督。具体的实现操作就是在图中 X0,1 、X0,2、 X0,3 、X0,4后面加一个1x1的卷积核,相当于去监督每个level,或者说监督每个分支的UNet的输出。

 

v2-b96ad644bf6eb4fce17b256d4df62d0d_b.jpg

为了从全尺度的聚合特征图中学习层次表示,UNet 3+进一步采用了全尺度深度监督。不同于UNet++,UNet 3+中每个解码器阶段都有一个侧输出,是金标准(ground truth,GT)进行监督。为了实现深度监督,每个解码器阶段的最后一层被送入一个普通的3×3卷积层,然后是一个双线性上采样和一个sigmoid函数。(这里的上采样是为了放大到全分辨率)

v2-0aa90eb5671e0e3ab15a98a6ba1133d6_b.png

 

结合focal损失 函数[10], MS-SSIM损失函数和IoU损失函数[11],我们提出一种混合损失函数用于分割在三个不同层次像素级别分割、块分割、图像级别分割,它能捕获大尺度的和精细结构清晰的界限。混合分割损失被定义为:

v2-13a35d361b18c26a478793fb568a123a_b.png

2.3. Classification-guided Module (CGM)

在大多数医学图像分割中,非器官图像出现假阳性是不可避免的。它很有可能是由于来自背景的噪声信息停留在较浅的层次,导致过度分割的现象。为了实现更精确的分割,我们尝试通过增加一个额外的分类任务来解决这个问题,这个任务是为预测输入图像是否有器官而设计的。

 

v2-8422b33c9180cc12d672a711286dc8d9_b.jpg

 

3. EXPERIMENTS AND RESULTS

reference

 

v2-b0c41652dcc877b86233ff6e3a2f2365_b.jpg

 

v2-b97fafc668d7d17b219c051e84491989_b.jpg

 

  • 47
    点赞
  • 126
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 18
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玖零猴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值