论文笔记 - PSM-Net： Pyramid Stereo Matching Network. CVPR 2018

最新推荐文章于 2023-09-12 07:02:17 发布

andyL_05

最新推荐文章于 2023-09-12 07:02:17 发布

阅读量1.2k

点赞数 1

分类专栏：论文阅读计算机视觉深度学习

本文链接：https://blog.csdn.net/andyL_05/article/details/111000823

版权

深度学习同时被 3 个专栏收录

21 篇文章

订阅专栏

计算机视觉

15 篇文章

订阅专栏

论文阅读

8 篇文章

订阅专栏

Pyramid Stereo Matching Network. CVPR 2018

本文指出，通过立体图像对估计深度已经能够表征为监督学习任务并且通过卷积神经网络解决。但是已有算法都依赖于基于patch的孪生网络，缺乏对上下文信息的利用，难以找到非适定区域关联性。本文提出了金字塔立体匹配网络PSM-Net，主要包括了空间金字塔池化与3D CNN。空间金字塔池化能够通过多尺度累积获取全局语境信息，3DCNN能够通过堆叠沙漏网络及中间结果监督规则化cost volume，获取视差图。
Introduction 与Related work部分，本文首先以MC-CNN为例，提出了基于patch的CNN估计视差虽然在精度与时间上都优于传统算法，但是在一些不适定区域比如遮挡、重复纹理、纹理稀疏、反射表面等依然面临一些困难。基于CNN的深度估计面临的核心问题之一就是如何有效利用上下文信息。相关的研究工作文章也做了介绍，例如针对优化匹配代价计算的MC-CNN，优化后处理的Displets、SGM-Net等。对于端到端的深度、视差估计方法，本文分为了基于视差预测回归（如dispnet、CRL等）以及基于cost volume（如GC-Net等），并且还对语义分割领域的深度学习模型做了探讨（事实上分割与深度估计两个任务相似程度还挺高，尤其是网络方面很多东西可以互相借鉴）。个人觉得，本文的related work对2018年以前的这一领域总结和论述的挺不错的，值得一看。
Pyramid Stereo Matching Network
PSM-Net的结构如图所示，左右图像分别经过共享权值的卷积层、空间金字塔模块，得到3D cost volume，经过3D CNN模块预测得到输出结果。
在这里插入图片描述

论文展示了模型的细节：
在这里插入图片描述

首先通过一系列卷积与空洞卷积层进行特征提取，得到长宽为输入1/4，维度为128的特征图。在第一层卷积没有采用常见的7x7“大核开局”，全都采用3x3卷积。然后通过空间金字塔模型获取多尺度上下文信息，文章设计了8x8,16x16, 32x32, 64x64四个不同尺度的分支，池化后结果上采样与前面卷积层的几个特征一起拼接起来，经过3x3以及1x1卷积得到长宽为1/4的特征图。
由于特征图长宽为原图的1/4，对应的视差值其实也降为了1/4，然后通过移动右图特征块拼接出每个视差值下的对应左右特征向量，构成cost volume
在这里插入图片描述

每一张图对应的cost volume是一个4D张量：视差高宽*特征。
在这里插入图片描述

3D卷积这里，首先经过两个“平平无奇”的3D CNN层，后面连接了3个堆叠的沙漏网络。me耦合沙漏网络包括2个卷积模块与2个“反”卷积模块（文中称为deconv，但实际指的是trans conv）。这部分有很多残差式的短接连接，个人认为这些一方面发挥了残差网络的作用（避免梯度消失），另一方面结合了深浅层特征。这一点在很多深度估计、语义分割等任务较为常见。
三个沙漏网络模块，每个后面都接卷积网络和上采样输出一个DxHxW的模块，并基于softmax得到最优的视差值，作为预测的视差。换言之网络会输出3个预测结果，这三部分都跟groundtruth计算loss，以达到对中间结果进行监督的目的。
本文的损失函数选择了 smooth L1：
在这里插入图片描述