论文笔记 - PSM-Net: Pyramid Stereo Matching Network. CVPR 2018

Pyramid Stereo Matching Network. CVPR 2018

本文指出,通过立体图像对估计深度已经能够表征为监督学习任务并且通过卷积神经网络解决。但是已有算法都依赖于基于patch的孪生网络,缺乏对上下文信息的利用,难以找到非适定区域关联性。本文提出了金字塔立体匹配网络PSM-Net,主要包括了空间金字塔池化与3D CNN。空间金字塔池化能够通过多尺度累积获取全局语境信息,3DCNN能够通过堆叠沙漏网络及中间结果监督规则化cost volume,获取视差图。
Introduction 与Related work部分,本文首先以MC-CNN为例,提出了基于patch的CNN估计视差虽然在精度与时间上都优于传统算法,但是在一些不适定区域比如遮挡、重复纹理、纹理稀疏、反射表面等依然面临一些困难。基于CNN的深度估计面临的核心问题之一就是如何有效利用上下文信息。相关的研究工作文章也做了介绍,例如针对优化匹配代价计算的MC-CNN,优化后处理的Displets、SGM-Net等。对于端到端的深度、视差估计方法,本文分为了基于视差预测回归(如dispnet、CRL等)以及基于cost volume(如GC-Net等),并且还对语义分割领域的深度学习模型做了探讨(事实上分割与深度估计两个任务相似程度还挺高,尤其是网络方面很多东西可以互相借鉴)。个人觉得,本文的related work对2018年以前的这一领域总结和论述的挺不错的,值得一看。
Pyramid Stereo Matching Network
PSM-Net的结构如图所示,左右图像分别经过共享权值的卷积层、空间金字塔模块,得到3D cost volume,经过3D CNN模块预测得到输出结果。
在这里插入图片描述

论文展示了模型的细节:
在这里插入图片描述

首先通过一系列卷积与空洞卷积层进行特征提取,得到长宽为输入1/4,维度为128的特征图。在第一层卷积没有采用常见的7x7“大核开局”,全都采用3x3卷积。然后通过空间金字塔模型获取多尺度上下文信息,文章设计了8x8,16x16, 32x32, 64x64四个不同尺度的分支,池化后结果上采样与前面卷积层的几个特征一起拼接起来,经过3x3以及1x1卷积得到长宽为1/4的特征图。
由于特征图长宽为原图的1/4,对应的视差值其实也降为了1/4,然后通过移动右图特征块拼接出每个视差值下的对应左右特征向量,构成cost volume
在这里插入图片描述

每一张图对应的cost volume是一个4D张量:视差宽*特征。
在这里插入图片描述

3D卷积这里,首先经过两个“平平无奇”的3D CNN层,后面连接了3个堆叠的沙漏网络。me耦合沙漏网络包括2个卷积模块与2个“反”卷积模块(文中称为deconv,但实际指的是trans conv)。这部分有很多残差式的短接连接,个人认为这些一方面发挥了残差网络的作用(避免梯度消失),另一方面结合了深浅层特征。这一点在很多深度估计、语义分割等任务较为常见。
三个沙漏网络模块,每个后面都接卷积网络和上采样输出一个DxHxW的模块,并基于softmax得到最优的视差值,作为预测的视差。换言之网络会输出3个预测结果,这三部分都跟groundtruth计算loss,以达到对中间结果进行监督的目的。
本文的损失函数选择了 smooth L1:
在这里插入图片描述

在训练方面论文采取Adam优化算法,使用了4块Titan-Xp GPU batch size为12(可见对显存的需求还是很大的)
简单放个结果图吧。详细结果对比可以查看原文。
在这里插入图片描述

总体而言,本文是立体匹配近年来效果很好的一篇经典文章。与传统算法类似,同样可以将计算过程分为前面的特征提取与后面的视差计算,结合了空间金字塔池化获取多尺度语义信息,从而提升了较困难区域的匹配精度,结合3D CNN对cost volume进行计算(类似传统算法代价累积环节)得到最后的视差值。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值