【论文阅读】CVPR2023 IGEV-Stereo

jiayuzhang128

已于 2023-04-23 09:14:40 修改

阅读量3.2k

点赞数 2

分类专栏：双目立体视觉文章标签：计算机视觉 python

于 2023-04-22 20:26:05 首次发布

本文链接：https://blog.csdn.net/qq_40918859/article/details/130309794

版权

双目立体视觉专栏收录该内容

8 篇文章

订阅专栏

用于立体匹配的迭代几何编码代价体

【cvhub导读】【paper】【code_openi】

代码是启智社区的镜像仓库，不需要魔法，点击这里注册

🚀贡献

1️⃣现有主流方法

基于代价滤波的方法和基于迭代优化的方法：

基于代价滤波的方法可以在cost volume中编码足够的非局部几何和上下文信息，这对于具有挑战性的区域中的视差预测至关重要。
基于迭代优化的方法可以避免进行3D代价聚合所需的高计算和内存成本，但是仅基于All-pairs Correlations的方法在病态区域（如遮挡、重复纹理、低纹理、高反等区域）的能力较弱。

2️⃣本文贡献

思想：结合这两种方法的互补优势，提出一种新的立体匹配范式——迭代几何编码代价体（IGEV）

解决病态区域引起的模糊性问题：使用一个极轻量级的3D正则化网络对cost volume进行聚合和正则化，得到一个几何编码体(GEV)，与RAFT-Stereo的All-pairs Correlations相比，GEV在聚合后编码了更多的场景几何和上下文信息。
解决边界和微小细节处出现过度平滑的情况：将GEV和RAFT中的All-pairs Correlations相结合，形成了组合几何编码体 (Combined Geometry Encoding Volume, CGEV)，并输入到 ConvGRU-based update operator 中进行迭代视差图优化。

⚛️方法

1️⃣整体架构

在这里插入图片描述

IGEV-Stereo由四部分组成：

多尺度特征提取器 (Multi-Scale Feature Extractor)
组合几何编码代价体 (Combined Geometry Encoding Volume)
基于ConvGRU的迭代更新器 (ConvGRU-based Update Operator)
空间上采样模块 (Spatial Upsampling Module)

2️⃣特征提取器

有特征提取网络和上下文提取网络

特征提取网络

提取多尺度特征用于cost volume构建和指导代价聚合，论文使用在ImageNet上预训练的MobileNet V2将输入图降采样到1/32，然后通过上采样得到多尺度特征:

$\{\boldsymbol{f}_{l,i}(\boldsymbol{f}_{r,i}) \in \mathbb{R}^{C_i\times\frac{H}{i}\times\frac{W}{i}}(i=4,8,16,32)$

$\boldsymbol{f}_{l,4}$ 和 $\boldsymbol{f}_{r,4}$ 用于构建代价体

上下文提取器

提取多尺度上下文特征用于ConvGRUs隐藏状态初始化和更新，同RAFT-Stereo一样，上下文网络由一系列残差块和下采样层组成，在输入128个通道图像分辨率的1/4、1/8和1/16处产生多尺度上下文特征。多尺度上下文特征用于初始化基于ConvGRU的更新操作符的隐藏状态，并在每次迭代时插入到ConvGRU中。

3️⃣组合几何编码代价体

CGEV = GEV + APC

GEV几何编码代价体

构建分组相关代价体：将 $\boldsymbol{f}_{l,4}$ 和 $\boldsymbol{f}_{r,4}$ 按照通道维度分成 $N_g=8$ 组，并计算各组的相关映射，形成一个4维的相关代价体：

$\boldsymbol{C}_{corr}(g,d,x,y)=\frac{1}{N_c/N_g}\langle \boldsymbol{f}_{l,4}^{g}(x,y),\boldsymbol{f}_{r,4}^{g}(x-d,y)\rangle$

$\langle \cdot, \cdot \rangle$ 为向量内积；d为视差索引； $N_c$ 为通道数； $\boldsymbol{C}_{corr}$ 仅使用特征相关性构建，缺乏全局几何信息，需要进行代价聚合。

轻量3D正则化网络 $\boldsymbol{R}$ 进行代价聚合：

$\boldsymbol{C}_G=\boldsymbol{R}(\boldsymbol{C}_{corr})$

正则化网络基于3D UNet，包含3个下采样模块和3个上采样模块，下采样模块包含两个 $3\times3\times3$ 的3D卷积，通道数分别为16，32，48，上采样模块包含一个 $4\times4\times4$ 的转置卷积和两个 $3\times3\times3$ 的3D卷积。

参考CoEx，在3D正则化网络中插入引导代价体激励操作：在代价聚合过程中，对于一个 $\frac{D}{i}\times\frac{H}{i}\times\frac{W}{i}$ 的代价体 $\boldsymbol{C}_i(i=4,8,16,32)$ ，引导代价体激励可以描述为：

$\boldsymbol{C}^{'}_{i}=\sigma(\boldsymbol{f}_{l,i})\odot\boldsymbol{C}_{i}$

$\sigma$ 是sigmoid函数， $\odot$ 是哈达玛积，上面式子的思想是将左特征图计算得到的权重作为激励作用于代价体 $\boldsymbol{C}_i$ ，疑问： $\boldsymbol{C}_i$ 到底是哪个层的？

该三维正则化网络插入了引导代价体激励操作，可以有效地推断和传播场景几何信息，得到几何编码体（GEV），也就是 $\boldsymbol{C}_G$

融合GEV和APC获得CGEV

计算All-Pairs Correlations（APC），获得局部特征关联代价体 $\boldsymbol{C}_A$ 。
扩大感受野：使用1D平均池化，大小为2，步长为2，获得两个层次的 $\boldsymbol{C}_G$ 金字塔和 $\boldsymbol{C}_A$ 金字塔。
结合这两个代价体金字塔，获得组合几何编码代价体（CGEV）。

4️⃣基于ConvGRU的更新操作

计算初始视差

使用soft argmin从 $\boldsymbol{C}_G$ 中回归初始视差:

$\boldsymbol{d}_0=\sum^{D-1}_{d=0}d\times Softmax(\boldsymbol{C}_G(d))$

得到1/4分辨率的初始视差。

ConvGRU更新

使用3级ConvGRU从初始视差进行更新，这种设置有助于迭代视差优化的快速收敛。

利用多尺度上下文特征来初始化ConvGRU的隐藏状态；
每次迭代，使用当前视差dk通过线性插值从CGEV中进行索引，产生一组几何特征 $\boldsymbol{G}_f$ ：

$\boldsymbol{G}_f=\sum^{r}_{i=-r}Concat\{\boldsymbol{C}_G(\boldsymbol{d}_k+i),\boldsymbol{C}_A(\boldsymbol{d}_k+i),\boldsymbol{C}^p_G(\boldsymbol{d}_k/2+i),\boldsymbol{C}^p_A(\boldsymbol{d}_k/2+i)\}$

其中， $\boldsymbol{d}_k$ 是当前视差，r是索引半径，p表示池化操作。

ConvGRU更新隐藏状态，这些几何特征和当前视差 $\boldsymbol{d}_k$ 通过两个编码器层，然后与 $\boldsymbol{d}_k$ 级联以形成 $x_k$ ，然后使用ConvGRU将隐藏状态 $h_{k-1}$ 更新:

$x_k=[Encoder_g(\boldsymbol{G}_f),Encoder_d(\boldsymbol(d)_k),d_k], \\ z_k=\sigma(Conv([h_{k-1},x_k],W_z)+c_k), \\r_k=\sigma(Conv[Conv([h_{k-1},x_k],W_r)+c_r), \\ \tilde{h}_k=tanh(Conv(r_k\odot h_{k-1},x_k], W_h)+c_h), \\ h_k=(1-z_k)\odot h_{k-1}+z_k\odot \tilde{h}_k$

$c_k,c_r,c_h$ 是双下文特征，隐藏状态的维度为128，上下文特征维度同样为128， $Encoder_g, Encoder_d$ 分别包含两个卷积

基于隐藏状态 $h_k$ ，通过两个卷积层解码得到 $\bigtriangleup \boldsymbol{d}_k$ 更新视差：

$\boldsymbol{d}_{k+1}=d_k+\bigtriangleup \boldsymbol{d}_k$

5️⃣空间上采样

通过在1/4分辨率下的预测视差 $\boldsymbol{d}_{k}$ 的加权组合来输出全分辨率视差图，对隐藏状态进行卷积生成特征，然后将它们上采样到1/2分辨率。将上采样的特征与来自左图像的 $\boldsymbol{f}_{l,2}$ 级联来产生权重 $\boldsymbol{W}\in \mathbb{R}^{H\times W\times 9}$ ，通过它们的原始分辨率邻居的加权组合来输出全分辨率视差。