《PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo Matching》

最新推荐文章于 2023-05-19 16:28:32 发布

爱钻研的小铭

最新推荐文章于 2023-05-19 16:28:32 发布

阅读量1.4k

点赞数 1

分类专栏：基于深度学习的深度估计文章标签： PVStereo

本文链接：https://blog.csdn.net/qq_42676511/article/details/121515399

版权

基于深度学习的深度估计专栏收录该内容

35 篇文章 30 订阅

订阅专栏

文章主页

1. 研究问题

（1）基于深度卷积网络的监督立体匹配方法通常需要大量人工标注的训练数据来学习最佳的参数，但这种数据标记过程非常耗时费力，此外，在实际中适应新场景时，网络泛化的局限性常常使这些方法失败，因此基于监督学习的立体匹配方法在实际中难以实施。

（2）现有的立体匹配DCNN主要依赖于3D卷积或由粗到细的方法，但是前者会消耗大量的计算资源，导致实时性能有限，而后者通常会受到粗金字塔级别的累计错误的影响，这些错误又会传播到后续级别并进一步导致显著的性能下降。

2. 研究方法

PVStereo是一种用于端到端立体匹配的自监督方法，它由金字塔投票模块（PVM）和称为OptStereo 的卷积架构组成。具体来说，我们的 OptStereo 首先构建多尺度成本量，然后采用循环单元在高分辨率下迭代更新视差估计，这不仅可以避免从粗到细范式中的误差累积问题，而且可以取得很好的效果。由于其简单但有效的架构，在准确性和效率之间进行权衡。而PVM 可以生成可靠的半密集视差图像，用于监督 OptStereo 的训练。

除此之外，还发布了一个大规模合成立体数据集，名为 HKUST-Drive 数据集，在不同光照和天气条件下收集，可以评估立体匹配算法在不同天气和光照条件下的泛化能力。

2.1 Pyramid Voting Module

在这里插入图片描述

2.2 OptStereo

在这里插入图片描述

在这里插入图片描述
我们的 OptStereo 由三个阶段组成，即特征提取、成本量计算和迭代细化。

特征提取：我们使用两个共享权重的残差网络分别从 $I_l$ 和 $I_r$ 中提取大小为 H W C 的视觉特征 $F_l$ 和 $F_r$ 。残差网络包括六个残差块，两个1/2分辨率，两个1/4分辨率和两个 1/8 分辨率。最终输出1/8 H * 1/8 W * 256 的特征图。
成本量计算：在这个阶段，我们参考DispNetC，使用点积计算 $F_l$ 和 $F_r$ 之间所有可能匹配对的相似度。然后采用Raft[33]的方法进一步构建多尺度成本量。多尺度成本量存储有关大小视差的信息，可有效地用于在迭代细化阶段更新视差估计。为了更好的利用多尺度成本量，我们引入了一个查找机制，从多尺度成本量中构建一个局部成本量，它携带着可能匹配对的有用的视觉相似性的信息，以便进一步细化。
迭代细化：在这个阶段，我们使用基于 GRU 的模块 [34] 来迭代更新一系列密集视差估计。我们 OptStereo 的架构受到传统的基于优化的方法的启发。具体来说，采用基于 GRU 的模块模拟了一阶下降算法的更新，并且 GRU 中使用的有界激活也鼓励收敛到固定点。此外，由于我们的 OptStereo 以高分辨率迭代更新视差估计，因此它不会遇到从粗到细范式中的误差累积问题。由于其简单但有效的架构，我们的 OptStereo 还可以极大地减少立体匹配的准确性和效率之间的权衡。

2.3 Loss Function and Data Augmentation

在这里插入图片描述

3. 实验结果

数据集：

KITTI 2012
KITTI 2015
HKUST-Drive：使用 CARLA 模拟器 [39] 创建的。它在不同的光照和天气条件下在六个不同的场景中收集，例如晴朗、雨天、白天和日落。总共有 11568 对立体图像具有相应的密集真实视差图。我们将其分为训练集（6940 个图像对）、验证集（2314 个图像对）和测试集（2314 个图像对）。

训练：

A优化器：Adam。
学习率：1e-4

3.1 Ablation Study

在这里插入图片描述

3.2 Performance Comparison on Our HKUST-Drive Dataset

在这里插入图片描述

3.3 Evaluation Results on the KITTI Stereo Benchmarks

在这里插入图片描述

4. 结论

（1）PVM 架构允许自监督训练，无需获取标注数据集。
（2）OptStereo 估计恒定高分辨率的视差图，避免了由粗到精的误差累积，且采用2D卷积，结构简单，在准确性和效率之间进行良好的权衡。
（3）在流行的 KITTI Stereo 基准测试和发布的 HKUST-Drive 数据集上进行的大量实验证明了 PVStereo 的有效性和效率，它大大优于所有其他最先进的自监督立体匹配方法。

参考文献

[1] Hitnet: Hierarchical iterative tile refinement network for real-time stereo
[2] Evaluation of stereo matching costs on images with radiometric differences
[3] Raft: Recurrent all-pairs field transforms for optical flow
[4] Learning phrase representations using rnn encoder-decoder for statistical machine translation
[5] Unsupervised monocular depth estimation with left-right consistency
[6] Learning by analogy: Reliable supervision from transformations for unsupervised optical flow estimation