ACC-UNet——基于Transformers与UNet的语义分割模型

知来者逆

已于 2024-05-03 09:02:55 修改

阅读量1.4k

点赞数 22

分类专栏：计算机视觉文章标签： UNet ACC-unet 图像分割语义分割

于 2024-05-03 09:00:00 首次发布

本文链接：https://blog.csdn.net/matt45m/article/details/138376835

版权

计算机视觉专栏收录该内容

86 篇文章 50 订阅

订阅专栏

概述

在过去十年中，计算机视觉领域经历了一场根本性的变革，这主要归功于视觉转换器（Visual Transformers）的引入。这一变革同样影响了医学成像领域，其中UNet架构通过采用转换器技术进行了重要重构，成为了该领域内极具影响力的模型之一。

近期的研究，如ConvNext，重新评估了卷积模型在视觉任务中的有效性，这一工作启发了我们对现有技术的进一步改进。我们的目标是提升传统的纯卷积UNet模型，使其在性能上能与基于Transformer的模型如Swin-Unet和UCTransNet相媲美。

在本篇综述文章中，我们深入探讨了基于Transformer的UNet模型的优势，尤其是在全局特征提取和跨层连接方面的能力。为了模拟这些优势，我们采用了卷积运算，并提出了ACC-UNet——一种完全基于卷积的UNet模型。ACC-UNet不仅继承了卷积网络的固有感应偏差，还具备了提取全局特征的能力，这使得它能够结合两种方法的优点。

在五个不同的医学图像分割基准测试中，ACC-UNet的性能始终超越了传统的卷积网络、Transformer模型以及它们的混合体。特别值得注意的是，在模态得分上，ACC-UNet分别比当前最先进的模型Swin-Unet和UCTransNet高出2.64% ± 2.54%和0.45% ± 1.61%，同时使用的参数量仅为它们的59.26%和24.24%，这表明ACC-UNet在效率和性能之间实现了卓越的平衡。

这一成果不仅展示了ACC-UNet在医学图像分割领域的潜力，也突显了通过创新的网络设计来推动技术进步的重要性。随着进一步的研究和开发，ACC-UNet及其衍生模型有望在医学成像和其他相关领域中发挥更大的作用。

论文地址：https://arxiv.org/abs/2308.13680、
源码地址：https://github.com/kiharalab/acc-unet

模型方法

图 1：拟议方法概述。

ACC-UNet 一览

整体概览如图 1-A 所示。建议的方法用引入自注意的 HANC 块取代了传统的 U-Net 卷积块。此外，传统的简单跳转连接也被 MLFC 模块取代，后者考虑到了不同编码器级别的特征图。下面各小节将详细介绍 HANC 和 MLFC 模块。

分层聚合邻里情境（HANC）

首先，我们考虑了如何在卷积块中引入长程依赖关系并提高其表达能力。为了降低计算复杂度，我们只使用逐点卷积和逐深卷积。

为了提高表示能力，建议在卷积块中加入一个反向瓶颈。这可以通过逐点卷积将通道数从 cin 增加到 cinv = cin∗invf来实现。由于这些额外的通道增加了模型的复杂度，因此采用 3x3 逐深卷积来降低计算复杂度，如图 1-B 所示。

为了提高提取全局特征的能力，在卷积块中模仿了自注意力。它主要是将一个像素与其邻近的其他像素进行比较。这种比较可以通过与邻近像素的平均值和最大值进行比较来简化。将邻近像素特征的平均值和最大值相加，就可以得到邻近比较的近似概念。然后，在逐点连续卷积的基础上考虑这些因素，并捕捉对比视角。由于分层分析有利于图像，因此这种聚合是在多层次上分层计算的。例如，2k-1 x 2k-1 补丁。

拟议的 HANC 将特征图 x1∈R cinv,n,m 扩展为 x2∈R cinv∗(2k-1),n,m（图 1-B）。 || 表示沿信道维度的连接。

然后，与变换器一样，在卷积块中加入捷径连接，以改善梯度传播。因此，再进行一次点式卷积，将通道数减少到 cin，并添加到输入特征图中。因此，x2∈ R cinv∗(2k-1),n,m 变成了 x3∈ R cin,n,m（图 1-B）。

最后，将输出数改为 c_out 作为输出。为此，采用了逐点卷积法（图 1-B）。

多级特征编译 (MLFC)

接下来，我们将研究基于变压器的联合国数据集的另一个优势–多级特征组合的可能性。

基于变压器的跳转连接可有效融合编码器层面的特征，并确保在各个解码器上对特征图进行适当过滤。这可以通过连接不同级别的标记来实现。

本文沿用了这一方法，通过调整不同编码器级别的卷积特征图的大小，将其合并为相同大小。然后合并来自不同语义层的特征图，并通过逐点卷积操作将其汇总。然后再与相应的编码器特征图相结合，通过另一次卷积来整合信息。

对于来自四个不同层级的特征 x1、x2、x3 和 x4，特征图谱将丰富多层级信息，如下式所示（图 1-D）。

这里，resizei(xj) 是将 xj 调整为 xi 大小的操作，ctot = c1 + c2 + c3 + c4。该操作对所有不同层级分别执行。

实验与测试

数据集

为了评估 ACC-UNet 的性能，我们在五个不同任务和模式的公开数据集上进行了实验：ISIC-2018（皮肤科，2594 幅图像）、BUSI（乳腺超声波，437 幅良性图像和 210 幅恶性图像）、CVC-ClinicDB（结肠镜检查，612 幅图像）、COVID（肺炎病灶分割，100 幅图像）和 GlaS（腺体分割，85 幅训练图像和 80 幅测试图像）、612幅图像）、COVID（肺炎病灶分割，100幅图像）和 GlaS（腺体分割，85幅训练图像和80幅测试图像）。

所有图像和掩码的大小均调整为 224 × 224；对于 GlaS 数据集，原始测试分割被视为测试数据。对于其他数据集，随机选择 20% 的图像作为测试数据。其余 60% 和 20% 的图像分别用于训练和验证，并以不同的随机洗牌方式重复实验三次。

与传统方法的比较 SOTA

表 1.SOTA 与传统方法的比较结果

所提议的方法与 UNet、MultiResUNet、Swin-Unet、UCTransnet 和 SMESwin-Unet 进行了比较。表 1 显示了测试集的模态得分。

在一个相对较大的数据集（ISIC-18）上，基于变换器的 Swin-Unet 取得了第二好的成绩。另一方面，在一个较小的数据集（GlaS）上，轻量级卷积模型（MultiResUNet）取得了第二好的成绩。在其他数据集上，混合模型（UCTransnet）是第二好的方法；SMESwin-Unet 尽管有大量参数，但在所有情况下都落在了后面。

另一方面，ACC-UNet 将变压器的设计原理与卷积神经网络的感应偏置相结合，在所有不同类别中取得了最佳性能。

五个数据集的模态得分分别提高了 0.13%、0.10%、0.63%、0.90% 和 0.27%。因此，ACC-UNet 不仅精度高，而且有效地使用了相对较小的参数：就 FLOPs 而言，所提出的方法与卷积 UNet 相当，因为基于变压器的 UNet 在片段分割过程中会进行大量的下采样、更小的 FLOP。

对五个数据集进行定性评估

ACC-UNet 不仅获得了更高的模数分数，而且产生了明显更好的质量结果。

图 2 显示了 ACC-UNet 与其他模型的定性比较。图中每行包含每个数据集的一个示例，右侧两列显示 ACC-UNet 预测的分割和地面实况掩膜在 ISIC-18 数据集的第一个示例中，模型没有过度分割，并遵循了病变的边界在来自 CVC-ClinicDB 的第二个示例中，模型几乎能够完美地区分手指和息肉。

然后，在 BUSI 数据集的第三个样本中，所提方法的预测过滤掉了左侧明显的结节区域，但排除了所有其他模型错误检测出的肿瘤。同样，在 COVID 数据集的第四个样本中，提出的方法能够直观地对左肺凝血间隙进行更好的建模，因此获得的模态得分比第二好的方法高出 2.9%。

从最后一个例子，即 GlaS 数据集来看，所提出的方法不仅准确预测了右下角的腺体，还单独识别了左上角的腺体，而这些腺体大多被其他模型所遗漏或合并。

图 2.对五个数据集的定性评估。

总结

在这项实验中，我们认识到了变换器不同设计范式的优势，并研究了类似想法在卷积 UNet 中的适用性。结果表明，拟议的 ACC-UNet 具有 CNN 的归纳偏置，并融合了转换器的长程和多级特征积累。

知来者逆

关注

22
点赞
踩
42

收藏

觉得还不错? 一键收藏
打赏
2
评论
ACC-UNet——基于Transformers与UNet的语义分割模型

在过去十年中，计算机视觉领域经历了一场根本性的变革，这主要归功于视觉转换器（Visual Transformers）的引入。这一变革同样影响了医学成像领域，其中UNet架构通过采用转换器技术进行了重要重构，成为了该领域内极具影响力的模型之一。近期的研究，如ConvNext，重新评估了卷积模型在视觉任务中的有效性，这一工作启发了我们对现有技术的进一步改进。我们的目标是提升传统的纯卷积UNet模型，使其在性能上能与基于Transformer的模型如Swin-Unet和UCTransNet相媲美。
复制链接

扫一扫