医图顶会 MICAAI‘24 Perspective+ Unet: 增强分割的双路径融合和高效非局部注意力

最新推荐文章于 2025-04-28 08:32:12 发布

程序猿李巡天

最新推荐文章于 2025-04-28 08:32:12 发布

阅读量922

点赞数 12

文章标签：计算机视觉人工智能深度学习 1024程序员节大数据 llama

本文链接：https://blog.csdn.net/m0_59235945/article/details/143347123

版权

论文信息

题目：Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields

Perspective+ Unet: 增强分割的双路径融合和高效非局部注意力以获得卓越的感受野

论文创新点

双路径策略：作者提出了一个双路径编码器，它结合了传统卷积和扩张卷积的结果。这种设计不仅保持了局部接受域，而且显著扩展了它，使得在保持细节敏感性的同时，更好地理解图像的全局结构成为可能。关键词：双路径编码器、传统卷积、扩张卷积。
高效的非局部变换器块（ENLTB）：该框架包含了一个高效的非局部变换器块，它利用核函数近似有效地捕捉长距离依赖性，计算和空间复杂度为线性。这个块建立在标准非局部注意力机制之上，以一小部分通常的计算开销提供全局视角。关键词：非局部变换器块、核函数近似、长距离依赖性。
空间跨尺度集成器（SCSI）：为了增强局部和全局特征表示之间的协同作用，作者设计了空间跨尺度集成器，以确保在不同阶段之间一致地整合信息，确保在受益于宏观上下文的同时保留细粒度细节。

摘要

医学图像的精确分割对于提取关键的临床信息至关重要，这在提高诊断准确性、制定有效的治疗计划和改善患者预后中发挥着关键作用。尽管卷积神经网络（CNN）和非局部注意力方法在医学图像分割方面取得了显著的成功，但它们要么因依赖局部特征而难以捕捉长距离空间依赖性，要么在尝试通过全局注意力机制解决这一问题时面临显著的计算和特征集成挑战。为了克服医学图像分割中存在的限制，作者提出了一种新颖的架构，Perspective+ Unet。该框架具有三个主要创新点：（i）它在编码器阶段引入了双路径策略，结合了传统和扩张卷积的结果。这不仅保持了局部接受域，而且显著扩展了它，使得在保持细节敏感性的同时，更好地理解图像的全局结构成为可能。（ii）该框架包含了一个高效的非局部变换块（ENLTB），它利用核函数近似有效地捕捉长距离依赖性，计算和空间复杂度为线性。（iii）采用了空间跨尺度集成器策略，用于在模型阶段之间合并全局依赖性和局部上下文线索，精心提炼各个层次的特征，以协调全局和局部信息。在ACDC和Synapse数据集上的实验结果证明了我们提出的Perspective+ Unet的有效性。

关键字

分割 · 双路径策略 · 高效非局部变换器

2 方法

我们提出的Perspective+ Unet采用了编码器-瓶颈-解码器配置，具体网络工作流程如图1所示。在本章中，我们将详细介绍网络中的三个模块，从双路径残差块开始。

2.1 双路径残差块（BPRB）

扩大接受域的大小以提高准确性一直是3D医学图像分割研究的重点。传统上，研究人员试图通过堆叠全局模块来实现这一点，虽然扩大了视野，但往往会丢失局部区域信息：捕捉全局信息的更广泛的接受域冒着忽视关键局部细节的风险。为了解决这一挑战，我们创新了BPRB，一个双路径设计，平衡了局部和全局信息处理，以增强分割。一条路径使用扩张卷积来扩大接受域，理解更广泛的空间信息，但由于其间距方法，引入了特征不连续性。为了解决这个问题，BPRB包含了另一条专注于捕捉详细特征并保持局部信息连续性的路径，从而实现了全局和局部信息处理之间的最佳平衡。提出的BPRB可以表述为：

其中 , , 分别是阶段s+1中的局部、全局和最终特征。fs和fk s分别是阶段s中的卷积和扩张卷积，扩张率分别为k。

2.2 高效非局部变换器块（ENLTB）

捕捉输入图像中的全局信息对于增强特征表示至关重要，这直接有助于分割的有效性。为了应对这一点，我们将ENLTB作为一个战略手段来重新配置编码器产生的特征图，旨在实现增强的上下文理解和表示多样性。ENLTB采用了高效非局部自注意力（ENLSA）机制，通过将传统的指数核替换为更计算效率高的无偏估计，从而大大加快了处理速度。具体地，，其中可以被重新参数化为线性映射。与传统变换器的二次计算复杂度相比，ENLSA模块仅在 Q 和 K 的矩阵投影计算中具有 O(2N) 的复杂度，随后在和 V 之间的乘法中具有 O(N) 的复杂度。这种设计确保了整体计算过程与输入大小 N 成线性关系，显著降低了计算成本。我们通过将注意力机制替换为 ENLSA 来重新设计变换器，构建了 ENLTB。这种修改简化了特征表示的增强。ENLTB的第一层专门处理来自编码器的特征。然而，随后的 ENLTB 层却聚合了直接从编码器传递的特征和通过补丁合并从前面的 ENLTB 层传递的特征，从而巧妙地混合了细粒度细节和粗略的语义信息。ENLTB 过程可以表示为：

其中 xs 的定义与第 2.1 节中介绍的一致。, 分别表示第 s 阶段的 ENLTB 的输入和输出。LN 和 MLP 分别代表层归一化和多层感知器。ENLTB 的主要思想是使用线性近似来降低非局部注意力模块的计算复杂度。在非线性变换下，特征空间中的显著区域对小的扰动表现出鲁棒性，保留了在近似表示中的显著性。这种方法使我们能够强调对最终任务影响最大的特征点，同时最小化对分割质量的影响。

2.3 空间跨尺度集成器（SCSI）

协作特征相互作用对于丰富网络的解释性能至关重要，因此我们设计了 SCSI 模块，以确保详细图像复杂性被分割得既精确又细腻。SCSI 从补丁展平开始，每个 ENLTB 产生的特征图被收集并合并成一个统一的序列。随后，一个变换器处理该序列，支持不同特征之间的连接学习。然后，将精炼后的特征序列仔细映射回每个尺度的原始特征图，保持其原始连接顺序。SCSI 过程可以表述为：

其中和分别表示第 s 阶段的 ENLTB 和 SCSI 的输出。concat 代表连接操作。

3 实验

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述