来自百度团队的KITTI立体匹配霸榜论文详解

导读

受众目标:

  • 对立体匹配任务感兴趣并有一定深度学习基础的相关研究者。

论文信息:

  • 名称:“Learning Depth with Convolutional Spatial Propagation Network”
  • 作者:来自百度团队。”Cheng Xinjing,Peng Wang和Ruigang Y ang,IEEE高级成员。

介绍:

该团队提出卷积空间传播网络(CSPN),简称CSPN,用于深度估计和立体匹配任务。CSPN通过递归卷积操作传播,卷积网络可以很好地学习相邻像素之间的关系。与空间传播网络(SPN)相比,CSPN在实际应用中要快2~5倍。本研究使用二维CSPN模组在网路中嵌入稀疏的深度样本,并应用三维卷积模组和空间金字塔共用模组。实验结果表明,这些模块有助于提高系统性能。在立体匹配任务中,该方法目前在2012年和2015年的KITTI基准数据集测试中排名第一。本文也只介绍了应用于立体匹配任务时的相关信息。下面将进一步介绍CSPN的网络结构和实验结果。

M2S_CSPN Network

  • 整体网络架构图

可通过3D CSPN(彩色最佳视图)通过变换内核预测进行立体深度估计。

将CSPN应用于立体匹配任务时,一般采用类似PSMNet的网络结构。如上图所示,首先将立体图像对输入到具有共享权重的两个cnn中,生成相应的特征映射。空间池模块用于连接子区域的空间表示。其次,利用得到的两个特征映射构造4D代价体。最后,将其发送到3D模块进行视差回归。

与PSMNet相比,本文所做的主要改进是用本文提出的CSPF和3dcpn代替PSMNet中的空间池模块和3D模块。下图显示了替换的3D模块,其中下采样率写入每个小块的右上角。红色、绿色和蓝色箭头表示跳过连接。

我们的3D模块的详细信息(彩色最佳视图)。 下采样率w.r.t. 图像大小显示在每个块的右上角,例如4x表示要素图的大小为h4×w4,其中h×w是图像大小。 红色,绿色和蓝色箭头是跳过连接,表示在特定位置进行功能串联,与PSMNet相同

  • 模块简介
  1. CSPN模块及其扩展
  2. 作为网络的目标,在引入CSPN模块之前,首先引入所谓的亲和矩阵。汉语可以翻译成亲和力矩阵、相似性矩阵或相似性矩阵,用来确定空间中的两点是相似的性矩阵。在计算机视觉中,它指的是一个加权图,它把每个像素作为一个点,用一条边连接两个点。其中,两边的权重反映了不同计算机任务的相似性。下图显示了一个4点5边的无向图。每条边的权重为1。

  1. 可以用4×5的亲和矩阵来描述,它表示点和边之间的关系。

  1. (a)SPN,(b)2D CPSN和(c)3D CSPN中的传播过程之间的比较。 注意:对于3D CSPN,虚线体积表示4D体积中特征通道的一个切片,尺寸为d×h×w×c
  2. 上下文金字塔模块 (context pyramid module)

  1. 上下文金字塔模块的不同结构。 (a)PSMNet应用的空间金字塔池(SPP)模块[89](b)我们的卷积SPP(CSPP)模块使用具有不同内核大小和跨度的2D CSPN。 (c)使用3D CSPN的卷积特征融合(CFF)。 (d)我们最终的组合SPP模块,即卷积空间金字塔融合(CSPF)

实验及结果

  • 训练细节

实验中使用的网络基础是PSMNet,采用相同的训练策略。具体如下:

采用Adam优化器,,;

batch size=16,在8个Nvidia P40 GPU上进行训练;

训练时将图像裁剪为512*512大小;

首先在场景流数据集上训练10个阶段,学习率为0.001。后来,该模型针对KITTI立体声数据集进行了微调。共训练600个阶段,学习率由每200个阶段0.001下降20%。最后,只计算基蒂立体数据中具有真值的稀疏点。

  • 数据集:

共有三个数据集:

场景流、KITTI Stereo 2012和KITTI 2015,下面将简要介绍这些数据集。

场景流数据集是一个大规模的数据集,包含35454对经过训练的立体图像对和4370对经过测试的立体图像对,像素分辨率为960540,由不同的合成序列渲染而成。

KITTI Stereo 2012数据集是从移动的汽车上获取的街景数据集。它包含194个训练立体图像对和195个测试立体图像对。图像分辨率为1240*376。地面真值通过360度V elodyne HDL64。获得激光扫描仪。本文将训练数据集进一步划分为160个测试数据和34个验证数据,并以彩色图像作为输入。

与KITTI 2012相比,KITTI 2015包括200对训练立体声对和200对测试立体声对。分辨率与KITTI 2012相同,但包含动态场景。KITTI 2015数据集进一步划分为160个训练和40个经验证的立体声对。

  • 评价指标

不同的数据集有不同的评价指标。场景流的评估指数使用EPE(端点误差),即KITTI 2012和KITTI 2015使用错误像素的百分比进行评估。具体地,当像素的视差误差大于某一阈值t时,将其视为错误像素。然后计算出在输出Noc(非遮挡)区域和输出所有区域中错误像素的比例。对于KITTI 2012数据集,阈值可以是2、3、4、5,对于KITTI 2015数据集,阈值t为3,这比KITTI 2012更严格。此外,对立体对的左图像和右图像进行匹配评估。

  • 消融研究

基于场景流数据对网络模块进行了烧蚀研究,验证了网络模块的有效性

  1. 3D模块测试结果
  2. 为了证明3D-CSPN相对于2D-CSPN的优势,首先使用2D-CSPN进行深度细化,将EPE从1.119降低到0.992。用3D-CSPN代替2D-CSPN后,EPE进一步降低到0.971。上表表明,这两个3D CSPN将取得最好的效果。最后一行是将3D模块与增强的ASPP模块组合时,将误差降低到基线的30%左右。

  1. CSPF模块测试结果

  1. 评估用于增强SPP模块的不同组件。对于所有模块都被替换的情况,采用“3dcpn-ds”作为3D模块,ds是视差空间的缩写CSPP“是指在空间池网格上使用2D CSPN,将EPE误差从0.971降低到0.954。另一种具有扩展卷积的空间池策略,即atrus-SPP,简称ASPP,具有与SPP相似的效果。如“ACSPP(atrus-CSPP)”行所示,当2D-CSPN与ASPP结合使用时,误差比SPP(0.954)小得多(0.902)。在“卷积特征融合”(CFF)中,利用所提出的融合策略对空间金字塔所汇集的特征进行融合,EPE误差从0.954降低到0.905。最后,将ACSPP与CFF(即ACSPF)相结合,得到了最佳的性能。下图是从场景流数据集进行网络训练后在KITTI数据集上验证的输出结果的一部分。可以看出,预测结果与真实值非常接近。网络在学习并传播亲和矩阵后,更好地利用了上下文信息,显著提高了效果。

  1. 通过在模型中学习亲和度矩阵并将其传播以更好地利用上下文,我们可以应对更具挑战性的案例。显着改善的区域以绿色虚线框突出显示(彩色最佳视图)。
  2. 网络在Scene Flow, KITTI 2012和KITTI 2015数据集上的结果:

结论

论文或源码数据集下载地址:关注“图像算法”wx公众号 回复“3D CSPN”,在本文中,我们提出了一个有效的模块,即卷积空间传播网络(CSPN),用于两个深度估计任务,即深度完成和立体深度估计。CSPN可以与任何类型的深度估计神经网络共同学习,并且可以看作是线性扩散过程,可以保证模型的稳定性。与以前的空间传播网络相比,CSPN的效率更高(在实践中,尤其是图像较大时,速度要快2-5倍),并且在深度完成方面更准确(提高了30%以上)。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值