【CVPR 2025】Geometry Self-Attention:即插即用的结构感知模块,显著提升语义分割与视觉理解精度!

Bilibili:CV缝合救

🌈 小伙伴们看过来~

写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨

你的一点鼓励🌟,对我们来说就是超大的动力!

👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️

01论文信息

image.png

论文题目:DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation (CVPR 2025)中文题目:DFormerv2:用于 RGBD 语义分割的几何自注意力即插即用模块:Geometry Self Attention几何自注意力

02 论文概要

Highlight

image.png

图 1. 主流 RGBD 分割流程与我们的方法之间的比较。(a) 使用双编码器分别对 RGB 和深度进行编码,并设计融合模块将它们融合 [28, 61];(b) 采用统一的 RGBD 编码器来提取和融合 RGBD 特征 [1, 59];(c) 我们的 DFormerv2 利用深度形成场景的几何先验,然后增强视觉特征。

image.png

图 2. 几何自注意力(GSA)与其他注意力机制的比较,这些机制即普通注意力 [10]、窗口注意力 [9, 35] 和局部注意力 [52, 57] 。“星号” 表示当前查询的位置。在几何自注意力中,颜色越接近红色表示衰减率越小,而离红色越远的颜色表示衰减率越大。在其他注意力机制中,亮色表示感受野。

image.png

图 3. 我们的 DFormerv2 示意图。(a) 我们的 DFormerv2 的整体架构,其包含一个具有金字塔结构的编码器,以及一个接收来自最后三个阶段特征输入的解码器头部。(b) 基本构建模块的详细结构。(c) 所提出的几何自注意力机制的详细说明。

03研究背景

    近年来,语义分割作为计算机视觉中的核心任务,在自动驾驶、智能机器人等领域展现出重要应用价值。然而,基于RGB图像的传统方法在复杂场景中(如低光照、遮挡或纹理缺失)存在明显性能瓶颈。

1. 现有RGB-D建模方式存在结构与效率瓶颈:
  现有RGB-D语义分割方法通常采用双分支编码器对RGB和深度模态分别建模,并通过融合模块进行特征交互;或者使用统一编码器直接对RGB-D对齐输入进行处理。这些方法虽然取得了不错的性能,但普遍存在两个问题:一是引入额外的计算开销;二是未能充分挖掘深度图的几何属性,仅将其视为一种附加的图像模态,缺乏结构上的差异建模能力。

2. 深度图几何特性利用不足:
  深度图天然蕴含场景的三维空间结构信息,能提供与RGB图像互补的几何感知能力。然而主流方法普遍将深度图送入标准卷积或Transformer模块处理,忽视了其作为几何先验信息的独特价值。这种粗暴融合策略不仅增加了冗余计算,也限制了模型对空间关系的理解能力。

  为了解决上述问题,本文提出了一种新颖的思路:不再显式编码深度图特征,而是利用其构造图像patch之间的几何关系矩阵,引导注意力权重的空间分配。 通过构建一个融合空间位置与深度差异的几何先验,并引入至自注意力机制中,模型可以自动聚焦于几何相关区域,从而在不引入额外复杂度的前提下,显著提升RGB-D语义理解能力。该方法兼顾性能与效率,为RGB-D语义分割提供了全新的研究范式。

04 模块原理解读

📌 模块解析 | GSA 模块原理详解:几何先验引导与轴向注意力融合
(轻量插拔式子模块 | 加强结构建模能力)

  在RGB-D语义分割中,深度图蕴含丰富的几何结构信息,但现有方法常将其作为图像模态直接编码,未能显式利用几何关系。本文提出的几何自注意力模块(Geometry Self-Attention, GSA)通过引入可学习的几何先验矩阵,以结构化方式调整注意力分布,使模型更加关注几何邻近区域,从而提升空间关系建模能力。

image.png

图 4. 几何自注意力模块(Geometry Self-Attention, GSA)

🔹 1. 构建深度引导的几何先验矩阵
  GSA模块结合图像patch间的空间距离与深度差异,生成几何关系矩阵G,作为引导因子调节自注意力权重。

  • 以每个patch的平均深度值构建全局深度差矩阵;

  • 引入曼哈顿距离编码空间结构信息;

  • 通过可学习权重融合深度差与空间位置,形成最终几何先验。

优势:引入结构感知机制,引导注意力关注3D几何上相关区域,显著提升分割连贯性与鲁棒性。

🔹 2. 几何感知注意力机制设计
  将几何关系矩阵作为抑制因子,调制原始注意力得分,实现结构相关性增强与冗余干扰抑制

  • 将几何矩阵G通过指数衰减转化为注意力掩码(β^G);

  • 与标准QK注意力图逐元素相乘,弱化远距离patch之间的权重;

  • 保留传统Transformer表达能力的同时,加入空间结构感知能力。

关键点:动态重构注意力空间分布,避免语义混淆,提升目标边界清晰度与小物体识别能力。

🔹 3. 高效实现:轴向注意力分解策略
  为降低全局注意力计算成本,GSA采用水平-垂直轴向分解方式,将二维注意力转化为两个一维注意力过程。

  • 分别沿H轴和W轴计算注意力权重,计算量从O(n²)降低至O(2n√n);

  • 保持空间解析能力,兼顾计算效率;

  • 可灵活插入各层Transformer编码器,适应不同尺度特征。

亮点:结构引导 + 高效分解,实现精准建模与快速推理的协同提升。

05 创新思路

CV缝合救星原创模块

视频讲解 CV任务通用模块|2025(CVPR)|GSA几何自注意力|一文搞定轴注意力|原创魔改即插即用|1个创新点,适用于图像分类、目标检测、分割等所有CV任务_哔哩哔哩_bilibili

🧠 模块升级 | GSA-SC:结构对比增强的几何自注意力模块(Geometry Self-Attention with Structural Contrast)

一、创新点一:引入结构对比增强机制

  • 在构建几何关系矩阵G时,不仅考虑patch间的空间距离与深度差异,还引入相邻块之间的结构梯度变化(如局部深度/纹理对比)

  • 将结构对比度作为附加调制因子,引导模型更关注结构边界清晰、语义过渡明显的区域。

✅ 优势:有效增强对边缘、轮廓等结构关键区域的建模能力,改善目标边界模糊、细节缺失的问题。

二、创新点二:设计对比感知几何注意力权重

  • 原始注意力计算中,将G作为直接mask进行加权。

  • GSA-SC中将几何矩阵G与结构对比矩阵C联合,生成组合权重 β^(G+C),进一步压制结构一致区域间的注意力传播。

  • 通过结构选择性增强(Structure-aware Softmax),提升模型对不同空间块间几何边界的分辨能力。

✅ 优势:避免跨结构区域的信息干扰,提升语义一致性和区域内表达稳定性。

三、创新点三:轻量融合策略

  • 模块仅增加一组对比图提取卷积(如3×3局部差分)、一条线性融合路径。

  • 保持整体计算复杂度几乎不变,同时具备即插即用性。

✅ 亮点:在保持Full-GSA架构不变的基础上,增强了空间结构建模的表现力,兼容多尺度编码器、Transformer骨干网络。

✨ 总结:GSA-SC通过结构差异感知 + 对比抑制增强双路径机制,推动几何自注意力向结构敏感、信息稀疏、高效传播方向演进,是适用于分割、ReID等任务的实用型创新模块。

06 模块适用任务

🧠 GSA模块适用任务
  GSA(Geometry Self-Attention)模块是一种结合空间位置与深度感知的结构引导型注意力机制,旨在提升模型对结构边界与空间布局的理解能力,适配各类需要几何感知能力的视觉任务。

1. 空间结构敏感任务(语义/实例分割)

  • 在图像中提取结构清晰、边界准确的区域特征,提升分割结果的一致性与边界对齐性;

  • 尤其适合处理含有复杂空间关系的场景图像。

🎯 优势:强化结构连续性建模,优化边界预测质量。

2. 多视角建模任务(3D感知 / 立体匹配)

  • 适用于深度估计、视差预测等任务中,感知patch之间的空间几何关系;

  • 融合位置信息与深度信息,提升跨视角语义对齐能力。

🎯 优势:提升模型对空间结构一致性的感知与利用能力。

3. 弱纹理区域建模(光滑区域目标识别)

  • 对于纹理不明显但几何边界显著的区域,通过G矩阵引导注意力聚焦在空间结构上;

  • 有效弥补传统注意力在无明显特征区域中的失效问题。

🎯 优势:在低纹理场景中提供显著的几何结构增强能力。

🧠 GSA-SC模块适用任务
  GSA-SC(Geometry Self-Attention with Structural Contrast)在GSA基础上引入结构对比增强,突出区域间结构边界与语义分割的能力,是一种针对结构突变区域优化的几何感知模块。

1. 目标边界清晰任务(边缘检测 / 分割细化)

  • 可用于边缘检测任务中加强轮廓感知能力;

  • 在语义分割中提升小物体检测与边界细化表现。

🎯 优势:增强边缘敏感性,解决语义边界模糊问题。

2. 小样本目标检测 / 异常检测

  • 借助结构对比强化目标与背景的结构差异,帮助模型快速聚焦于语义跳变区域;

  • 适合小目标或稀疏目标的建模需求。

🎯 优势:通过结构突变点增强局部特征辨识能力。

3. 异构结构建模任务(跨模态匹配 / VI-ReID)

  • 可在模态之间建立基于结构一致性的注意力关系,提升跨模态对齐的鲁棒性;

  • 特别适用于视觉-红外、RGB-深度等异构匹配任务。

🎯 优势:实现结构对齐导向的注意力传播,增强跨模态语义理解。

07 运行结果与即插即用代码

运行结果

GSA模块

image.png

GSA-SC模块

image.png

本文代码获取

立即加星标

即插即用模块获取链接:

https://mall.bilibili.com/neul-next/detailuniversal/detail.html?isMerchant=1&page=detailuniversal_detail&saleType=10&itemsId=11295250&loadingShow=1&noTitleBar=1&msource=merchant_share

各位朋友,感谢你一直以来对我们内容的关注与认可!

我们在整理每篇精选推文的过程中,都会查阅大量论文资料,调试优化数十上百段代码,力求将最实用、最清晰的思路呈现给大家。

不管是历史文复盘,还是后台留言反馈,很多读者已经通过这些内容提升了技能,推动了项目落地,甚至在课程、竞赛、工程中取得了实际成果。


🔶 目前我们已整理并更新 200+ 套模块化代码,涵盖:

✅ 原始论文结构复现(精准还原,快速理解)
✅ 原创思路改进版本(结构创新,性能提升)
🧠 适配实际项目场景(合理拓展用模块)

包括图像分类、目标检测、遥感分析、医学图像、小样本识别、工业检测等多个方向。


❤️ 如果你希望获得本文所对应的完整可运行代码 + 模块化魔改版本,以及更多 2025 年持续更新的深度学习实用资料。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值