【CVPR 2025】Geometry Self-Attention：即插即用的结构感知模块，显著提升语义分割与视觉理解精度！

CV缝合救星

于 2025-05-04 20:30:42 发布

阅读量739

点赞数 11

分类专栏： 2025深度学习即插即用模块文章标签：深度学洗 CVPR 即插即用模块

本文链接：https://blog.csdn.net/weixin_43009052/article/details/147703327

版权

2025深度学习即插即用模块专栏收录该内容

6 篇文章

订阅专栏

Bilibili：CV缝合救

🌈 小伙伴们看过来～

写推文真的不容易，每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发，别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈～✨

你的一点鼓励🌟，对我们来说就是超大的动力！

👀 小声提醒：用电脑打开阅读更舒服哟，排版清晰、体验更棒！谢谢大家～我们会继续努力产出优质内容，陪你一起进步呀✌️❤️

01论文信息

论文题目：DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation (CVPR 2025)中文题目：DFormerv2：用于 RGBD 语义分割的几何自注意力即插即用模块：Geometry Self Attention | 几何自注意力

02 论文概要

Highlight

图 1. 主流 RGBD 分割流程与我们的方法之间的比较。(a) 使用双编码器分别对 RGB 和深度进行编码，并设计融合模块将它们融合 [28, 61]；(b) 采用统一的 RGBD 编码器来提取和融合 RGBD 特征 [1, 59]；(c) 我们的 DFormerv2 利用深度形成场景的几何先验，然后增强视觉特征。

图 2. 几何自注意力（GSA）与其他注意力机制的比较，这些机制即普通注意力 [10]、窗口注意力 [9, 35] 和局部注意力 [52, 57] 。“星号” 表示当前查询的位置。在几何自注意力中，颜色越接近红色表示衰减率越小，而离红色越远的颜色表示衰减率越大。在其他注意力机制中，亮色表示感受野。

图 3. 我们的 DFormerv2 示意图。(a) 我们的 DFormerv2 的整体架构，其包含一个具有金字塔结构的编码器，以及一个接收来自最后三个阶段特征输入的解码器头部。(b) 基本构建模块的详细结构。(c) 所提出的几何自注意力机制的详细说明。

03研究背景

近年来，语义分割作为计算机视觉中的核心任务，在自动驾驶、智能机器人等领域展现出重要应用价值。然而，基于RGB图像的传统方法在复杂场景中（如低光照、遮挡或纹理缺失）存在明显性能瓶颈。

1. 现有RGB-D建模方式存在结构与效率瓶颈：
现有RGB-D语义分割方法通常采用双分支编码器对RGB和深度模态分别建模，并通过融合模块进行特征交互；或者使用统一编码器直接对RGB-D对齐输入进行处理。这些方法虽然取得了不错的性能，但普遍存在两个问题：一是引入额外的计算开销；二是未能充分挖掘深度图的几何属性，仅将其视为一种附加的图像模态，缺乏结构上的差异建模能力。

2. 深度图几何特性利用不足：
深度图天然蕴含场景的三维空间结构信息，能提供与RGB图像互补的几何感知能力。然而主流方法普遍将深度图送入标准卷积或Transformer模块处理，忽视了其作为几何先验信息的独特价值。这种粗暴融合策略不仅增加了冗余计算，也限制了模型对空间关系的理解能力。

为了解决上述问题，本文提出了一种新颖的思路：不再显式编码深度图特征，而是利用其构造图像patch之间的几何关系矩阵，引导注意力权重的空间分配。 通过构建一个融合空间位置与深度差异的几何先验，并引入至自注意力机制中，模型可以自动聚焦于几何相关区域，从而在不引入额外复杂度的前提下，显著提升RGB-D语义理解能力。该方法兼顾性能与效率，为RGB-D语义分割提供了全新的研究范式。

04 模块原理解读

📌 模块解析 | GSA 模块原理详解：几何先验引导与轴向注意力融合
（轻量插拔式子模块 | 加强结构建模能力）

在RGB-D语义分割中，深度图蕴含丰富的几何结构信息，但现有方法常将其作为图像模态直接编码，未能显式利用几何关系。本文提出的几何自注意力模块（Geometry Self-Attention, GSA）通过引入可学习的几何先验矩阵，以结构化方式调整注意力分布，使模型更加关注几何邻近区域，从而提升空间关系建模能力。