【立体匹配-2021-CoEx】Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume Excitation

CA727

已于 2024-01-04 00:35:17 修改

阅读量756

点赞数 12

分类专栏： # 立体匹配文章标签：计算机视觉立体匹配

于 2024-01-04 00:21:57 首次发布

本文链接：https://blog.csdn.net/cfan927/article/details/135372081

版权

立体匹配专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章链接
 代码链接

1. 核心贡献

提出GCE（Guided Cost volume Excitation）模块，利用图像的特征图引导代价体（cost volume）的聚合过程；
在视差回归部分，提出利用top-k匹配代价执行soft-argmax/argmin；
基于上述两个模块，构建实时立体匹配网络CoEx。

2. 网络架构

在这里插入图片描述
当前多数基于深度学习的立体匹配网络，多包括特征提取、匹配代价计算、代价聚合及视差回归几个步骤。本文也不例外，作者将其前两个contribution定义为模块，并指出该模块可集成进其它基于cost volume（文中表述为volumetric，一个意思）的立体匹配架构中，同时不会显著增加计算开销。
在这里插入图片描述

2.1. 特征提取

CoEx利用预训练的MobileNetV2作为特征提取的骨干网络（backbone），这里主要为了轻量化，且可提供类似U-Net结构的多尺度特征。该特征将在后续代价聚合过程中作为weight与对应尺度的cost volume相乘，用以引导代价聚合过程。

CoEx的输入为左右目两张RGB图像（ $\times H \times W$ ），所提取的特征分别为4x、8x、16x及32x倍降采样原图分辨率的尺寸。利用4x降采样分辨率的特征图构建相关性代价体（correlation cost volume），输出的cost volume的尺寸为 $D/4 \times H/4 \times W/4$ ，其中D=192为设置的最大视差范围。

2.2. GCE模块构建

在这里插入图片描述
GCE如上图示，这里的Guided Channel Excitation和前面的GCE（Guided Cost volume Excitation）应该是一个东西，毕竟Guided Channel Excitation全文只出现了一次，可能是作者笔误。。

GCE模块用公式表示为：
$\alpha=\sigma(F^{2D}(I^{(s)})) \\ C_o^{(s)}=\alpha \times C_i^{(s)}$

其中， $s$ 表示不同尺度， $I^{(s)}$ 为 $s$ 尺度下的特征图， $F^{2D}$ 为2D的point-wise卷积（实际上就是将特征图的channel维度压缩为1，然后通过sigmoid（ $\sigma(\cdot)$ ）获得 $\alpha$ 作为该尺度下的权重图。

对1/4分辨率的cost volume利用hourglass结构进行encode下采样，获得不同尺度下的cost volume记为 $C_i^{(s)}$ ，进而将上述获得的权重 $\alpha$ 与其相乘获得 $C_o^{(s)}$ 。经过decode上采样和skip connection最终获得1/4分辨率的cost volume，作为视差回归的输入。

2.3. top-k视差回归

该模块是对GC-Net所提出soft-argmin的改进。soft-argmin中，在cost volume的视差维度 $D$ 执行softmax，并利用下式回归视差：
$\hat{d}=\sum_{d=0}^D {d \times Softmax(c_d)}$

然而，当softmax结果中出现多个峰值时，soft argmin表现并不理想。作者通过实验发现，对于每一个像素，在视差维度取前k个最可能的候选值进行视差回归，会得到更加准确的结果：
在这里插入图片描述
为了进一步降低计算量，作者选择在1/4分辨率的cost volume执行top-k soft-argmin，获得初始的视差图（1/4原始分辨率）后，再通过上采样获得原始分辨率的视差图。上采样这一步follow了另外一篇做分割的文章，想了解的话可以参考下原文。