浅谈立体匹配中的新式应用场景

©PaperWeekly 原创 · 作者|张承灏

单位|中科院自动化所

研究方向|场景感知和深度估计

基于深度学习的立体匹配(stereo matching)是根据左右视角的 RGB 图像来进行视差(深度)估计,两张图像的成像条件是具有相同内参的两台彩色相机,在同一时刻成像,并且经过水平校正。

常用的立体匹配数据集包括合成数据集 SceneFlow 和真实数据集 KITTI 2012/2015,MiddleBury,ETH3D 等。目前,在此场景下开展的研究主要可以分为以下几类:

  • Accurate Stereo Matching:以有监督学习的方式提升立体匹配算法在常用数据集上的准确率;

  • Real-Time Stereo Matching:探索更快速的立体匹配算法以满足实时性需求;

  • Un-/Self-supervised Stereo Matching:不依赖视差标签的无监督/自监督立体匹配;

  • Adaptive Stereo Matching:解决合成数据和真实数据领域偏差的自适应立体匹配;

  • Efficient Stereo Matching:探索轻量级的、内存占用低、参数量少的更高效的立体匹配;

  • Confidence  Estimation & Measures:立体匹配中的置信度/不确定性估计和度量;

今年的顶会上涌现出一些新的立体匹配应用场景研究,它们不同于上述研究方向,而是基于立体匹配问题的引申和拓展。本文将从新场景,新应用和新数据三个方面来介绍相关的开源研究工作。

新场景

论文标题:

360SD-Net: 360° Stereo Depth Estimation with Learnable Cost Volume

论文来源:

ICRA 2020

论文链接:

https://arxiv.org/abs/1911.04460

论文代码:

https://albert100121.github.io/360SD-Net-Project-Page/

1.1 概述

经典的立体匹配主要用于对普通相机拍摄的左右视角图像进行水平方向的视差估计,左右视角图像满足透视投影。这篇论文提出了一个新场景:在上下视角的 360° 全景图像上进行球面视差估计,使得能够对感知到的整个场景进行三维重建。

上图展示了利用两个 Insta360® ONE X 相机采集全景图像的过程。将底部图像(bottom)作 180 度翻转,即可与顶部图像(top)进行配对来估计视差。360° 全景图像有以下两个特点:

  • 将三维空间中的水平线投影到二维平面时并不总是保持水平,这意味着它不满足经典立体匹配中的水平极线约束。因此,作者采用上下(top-bottom)两个相机采集,使得上下视角图像在竖直方向是对齐的;

  • 图像的顶部像素和底部像素比那些位于赤道线附近的像素拉伸得更多。因此作者提出了新的 360SD-Net 来专门学习竖直对齐的全景图像的视差/深度。

1.2 方法

下面首先介绍在 360° 全景图像下的视差/深度的几何定义,之后介绍论文提出的 360DS-Net。

球面视差

上图展示了在上下相机拍摄设置下的球面视差的几何关系图。设 分别是三维空间中的点 在顶部相机和底部相机平面上的投影点。 和  分别是投影向量,而 分别是投影向量与南极方向的夹角。

那么,顶部图像和底部图像之间的视差定义为两个夹角的差,即 。而相对于顶部相机的深度定义为 的范数,即:

其中 是顶部相机和底部相机的基线。在透视投影立体匹配中视差和深度的关系是固定的,从上述公式可以看出,在全景图像立体匹配中,视差和深度的关系是随着角度 变化的。因此,在实际中作者没有估计不太直观的视差,而是估计深度信息。

360SD-Net

上图是 360SD-Net 的整体结构,其主体框架来自于 PSMNet,包括三个组成部分:1)两个分支的特征提取模块用来提取双目全景图像的特征和极角的融合特征;2)用于扩大感受的 ASPP 模块;3)用于非线性球面投影的可学习的 cost volume。

最后采用 Stacked-Hourglass 来回归视图,采用 smooth L1 损失监督。

Polar Angle:根据球面视差的定义,视差的计算和投影向量的极角有关,这里作者引入极角作为额外的输入分支(如上图(a)),用来增加几何信息。采用残差模块提取 RGB 图像的特征,用三层 2D 卷积来提取极角的特征,之后将二者的特征进行融合,这比直接将二者的 concat 作为输入要更好。

ASPP Module:由于全景图像比常规图像具有更大的感受野,因此作者采用有空洞卷积的 ASPP 模块(如上图(b))来提取多个尺度的特征,并且增加特征提取的感受野,以适应全景图像。

Learnable Cost Volume:已有的深度立体匹配采用固定步长的像素搜索策略来构建 cost volume,然而这种固定步长的逐像素搜索策略与来自极角的几何输入信息是不一致的。

因此,作者采用平移滤波器(shifting filter)来搜索最优的像素搜索步长。可学习的 cost volume(LCV)通过一个 的 2D 卷积来实现(如上图 (c)),这种设计使得特征通道能够在竖直方向移动,符合全景图像的特点和球面视差的定义,从而保留全景图像的完整视图。

1.3 实验

360°全景图像数据集

作者利用 Minos 虚拟环境和 Stanford3D 点云的重投影,通过 Matterport3D 采集了两个具有照片真实感的数据集 MP3D 和 SF3D。这两个 360° 双目全景图像数据集各包含 1602/800 张训练图像,431/200 张验证图像和 341/203 张测试图像,其分辨率为 1024*512,包含深度标签。

这为后续研究全景图像的球面视差估计提供了新的数据集。作者在这些合成图像上训练并在真实场景下测试。为此,作者还采用 Insta360® ONE X 相机采集了真实场景的 360° 全景图像。

实验结果

首先是和 state-of-the-art 的立体匹配模型进行对比,可以看到 360SD-Net 在 MAE 和 RMSE 两个指标上均取得了最佳的效果。

作者还进行了消融实验来验证各个模块的有效性,包括 Pc(极角的融合特征),ASPP 和 LCV。这里 baseline 是采用固定步长的逐像素搜索策略来构建 cost volume,LCV(repli)是采用复制填充而不是零填充。

最后作者还在自己搜集的真实 360° 全景图像上进行了三维重建可视化,更多定量和定性的实验结果可以参考原论文。

新应用

论文标题:

Bi3D: Stereo Depth Estimation via Binary Classifications

论文来源:

CVPR 2020

论文链接:

https://arxiv.org/abs/2005.07274

论文代码:

https://github.com/NVlabs/Bi3D

2.1 概述

已有的立体匹配算法需要对每个像素点的精确视差值进行估计,虽然深度立体匹配模型在准确率上逐步提升,但是也需要较大的计算消耗。

在自动驾驶领域,有时我们并不需要估计十分准确的视差值,例如我们只需要知道目标是在某一个深度平面 的前方还是后方即可,这可以在很短时间内计算出来,且不需要消耗过多的计算资源。

本文在经典立体匹配场景上提出新的应用,即对深度进行二值化估计,从而平衡准确率和计算时延。

如上图所示,在自动驾驶场景上 (a),给定一个深度平面  <

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值