基于代价立方归一化的3D激光雷达与双目相机融合立体匹配网络

摘自:https://www.sohu.com/a/399610897_715754

 

基于代价立方归一化的3D激光雷达与双目相机融合立体匹配网络

2020-06-04 06:30

标题: 3D LiDAR and Stereo Fusion Using Stereo Matching Network with Conditional Cost Volume Normalization

作者: Tsun-Hsuan Wang, Hou-Ning Hu, Chieh Hubert Lin, Yi-Hsuan Tsai, Wei-Chen Chiu, Min Sun

来源: 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

编译:林只只

审核:黄思宇,孙钦

这是泡泡一分钟推送的第 533 篇文章,和欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

主动和被动深度感应技术的互补特性促使了LiDAR传感器和双目相机融合研究,从而改善深度感应结果。我们没有直接融合跨LiDAR和双目模态估计的深度,而是利用立体匹配网络的两种增强技术:对LiDAR信息的输入融合和条件代价立方归一化(CCVNorm)。所提出的框架是通用的,并且与立体匹配神经网络中通常使用的代价立方组件紧密集成。我们在KITTI双目和深度补全数据集上实验验证了我们方法的有效性和鲁棒性,相比其他融合策略我们的结果更理想。此外,我们证明,通过CCVNorm的分层扩展,该方法在计算时间和模型大小方面仅给立体匹配网络增添少量成本。

图1 3D激光雷达与双目相机融合的方法示意图。立体匹配通道的高级概念涉及从立体对中提取2D特征,获取像素对应关系以及最终进行视差计算。在本文中,我们提出了与立体匹配网络紧密集成的(1)输入融合和(2)条件代价立方归一化。通过利用LiDAR和双目模态的互补性,我们的模型可以产生高精度的视差估计。

图2 我们的3D LiDAR和双目融合框架概述。我们引进了(1)输入融合,它将来自稀疏LiDAR深度的几何信息与RGB图像结合起来,作为成本计算阶段的输入,以学习联合特征表示;以及(2)CCVNorm,在立体匹配的成本正则化阶段,它代替批处理归一化(BN)层并以LiDAR数据为条件调制代价立方特征量F。利用所提出的两种技术,视差计算阶段可产生高精度的视差估计。

图3 条件代价立方归一化。在每个像素(红色虚线边框)处,基于相应LiDAR数据的离散视差值,分类CCVNorm从D条目查找表中选择调制参数γ,而无效值的LiDAR点则通过附加的一组参数(灰色)来单独处理。另一方面,HierCCVNorm通过2步的分级调制来生成γ,调制参数分别为gc和{Φ,Ψ}。

图4 错误率和计算时间以及模型参数。这证明了我们的分级CCVNorm达到了与原始CCVNorm差不多的效果但是在计算时间和模型参数上取得了更好的效果。

图5 LiDAR 密度的鲁棒性。水平轴上的1.0值表示LiDAR的一个完整扫描,阴影表示标准偏差。该图表明,与其他基准相比,我们的方法对于LiDAR子采样更为可靠。

图6 对LiDAR数据的敏感性。我们手动修改稀疏视差输入(由“Modified Sparse Disparity”中的白色虚线框指示),并观察视差估计中的影响。结果表明,我们所有的变体都更好地反映了匹配过程中LiDAR数据的修改。

图7 定性结果。与其他基准和变体相比,我们的方法通过利用LiDAR的互补特性和双目模态来捕获复杂结构区域(白色虚线框)中的细节。

表1 在KITTI双目2015数据集上的测评

表2 在KITTI深度补全数据集上的测评

表3 KITTI深度补全数据集的消融研究。“IF”,“ Cat”和“ Cont”分别代表输入融合、CCVNorm的分类变体和连续变体。对于不同阶段,“ MCC”代表匹配成本计算,“ CR”代表成本正则化。粗体字体表示效果排行前2位的效果。

表4 计算时间(单位:秒)。与基准方法GC-Net相比,我们的方法只带来了较小的改善(0.049秒)

Abstract

The complementary characteristics of active and passive depth sensing techniques motivate the fusion of the LiDAR sensor and stereo camera for improved depth perception. Instead of directly fusing estimated depths across LiDAR and stereo modalities, we take advantages of the stereo matching network with two enhanced techniques: Input Fusion and Conditional Cost Volume Normalization (CCVNorm) on the LiDAR information. The proposed framework is generic and closely integrated with the cost volume component that is commonly utilized in stereo matching neural networks. We experimentally verify the efficacy and robustness of our method on the KITTI Stereo and Depth Completion datasets, obtaining favorable performance against various fusion strategies. Moreover, we demonstrate that, with a hierarchical extension of CCVNorm, the proposed method brings only slight overhead to the stereo matching network in terms of computation time and model size.

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值