【CVPR2022】ACVNet：一种基于注意力连接代价体的双目立体匹配网络

最新推荐文章于 2025-04-20 22:02:19 发布

Scurry﹉

最新推荐文章于 2025-04-20 22:02:19 发布

阅读量4.4k

点赞数 4

文章标签：网络计算机视觉深度学习

本文链接：https://blog.csdn.net/caucchen/article/details/124595720

版权

ACVNet是一种基于注意力连接代价体的双目立体匹配网络，改进了GwcNet，提高了匹配精度并降低了计算负担。在Kitti数据集上表现优秀，通过多级自适应补丁匹配生成注意力权重，有效抑制冗余信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

本文是发表在CVPR会议上的一篇论文，作者在GwcNet网络的基础上提出了一种新的cost volume的表示方法，基于注意力连接体的立体匹配网络，并在kitti数据集上目前排名前三。
原文链接：ACVNet
开源代码：gangweiX/ACVNet

一、研究背景

立体匹配是视觉和机器人研究领域的基本问题，一个信息丰富而简洁高效的匹配代价体的构建对于高精度和高效的立体匹配至关重要。本文提出了一种新的成本量构造方法，该方法利用相关线索生成注意权值，以抑制冗余信息，增强连接体积中的匹配相关信息。为了产生可靠的注意力权重，本文提出了多级自适应补丁匹配，以提高不同差距下匹配成本的显著性，即使是无纹理区域。所提出的成本量被命名为注意力聚合量（ACV），它可以无缝地嵌入到大多数立体匹配网络中，所产生的网络可以使用更轻量级的聚合网络，同时达到更高的精度，例如，只使用聚合网络的1/25的参数就可以达到GwcNet的更高精度。

二、论文精读

1.介绍

传统的CNN引入立体匹配网络，其中成本体积代价的计算量很大，结构很复杂，例如GwcNet将分组相关卷与一个紧凑的串联卷串联起来，在最终的4D成本卷中同时编码匹配和内容信息。然而，相关卷和串联卷的数据分布和特征是完全不同的，即前者代表了通过点乘得到的相似度测量，而后者是单项特征的串联。简单地将两个卷串联起来，并通过三维卷积对其进行规范化处理，很难将两个卷的优势完全发挥出来。因此，GwcNet仍然需要二十八次三维卷积来进行成本汇总。
本文工作的目的是探索一种更有效的成本卷形式，它可以大大减轻成本汇总的负担，同时达到最先进的精确度。本文基于两个关键的观察建立模型：首先，聚合量包含丰富但冗余的内容信息；其次，衡量左右图像之间特征相似性的相关量可以隐含地反映图像中相邻像素之间的关系，即属于同一类别的相邻像素往往有密切的相似性。这表明，利用编码像素关系先验的相关卷可以促进串联卷显著抑制其冗余信息，同时在串联卷中保持足够的信息用于匹配。
本文的主要贡献在于提出了一种通用的成本代价体构建方法（ACV），该方法采用了多尺寸的补丁，用自适应权重来匹配不同特征水平的像素。ACV可以达到更高的精度，同时大大减轻了成本汇总的负担。结果显示，应用该方法后，PSMNet和GwcNet可以分别实现额外的42%和39%的准确率提升。