PSMNET,全称Pyramid Stereo Matching Network是一篇2018发表在CVPR上的双目立体匹配论文。论文的作者是Department of Computer Science, National Chiao Tung University的Jia-Ren Chang。该篇论文融合了之前一些论文的相关研究并做了一些创新。相比于之前的网络,该网络集成了更多的全局上下文信息。对一些病态区域如遮挡区域、重复图案、无纹理和反光表面,相较于之前的网络展现了更好的鲁棒性。
论文链接: link
github链接: link
一、主要贡献
- 提出了一种不要后处理的端到端的立体匹配网络。
- 引入了一个金字塔池化模块,用于将全局上下文信息整合到图像特征中。
- 提出了一个堆叠的沙漏 3D CNN 来扩展成本量中上下文信息的区域支持。
- 在 KITTI 数据集上实现了最先进的精度。
二、网络结构
三、SPP(Spatial Pyramid Pooling Module)
在对左右图的视差进行匹配的过程中,单纯使用像素点的强弱进行对应像素点的匹配是困难的。因此,如果提取到的图像的特征包含丰富的上下文的信息就能更好的估计深度,尤其是对病态区域。但是由于经验感受野远小于深度网络中的理论感受野。金字塔池化的方法被提出来来改善这样的问题。在SSP的设计中作者借鉴了语义分割中集成高低维度特征的方法,提出了多尺度的上下文增强方法。
在本文中作者使用了4个固定尺寸的平均池化块分别大小6464,3232,1616和88 并接上了1*1卷积和上采样,最后把多个feature map concat在了一起。最后在消融实验中证明了这种设计方法的有效性。
四、Cost Volume的构建
Cost Volume的构建参考了MC-CNN和GC-Net的方法对左右图按照每个视差级别进行了concat,最后生成了一个4D volume。
五、3D CNN
提出了两种3D的结构进行cost volumn的正则化:basic和stacked hourglass。
basic是由残差结构构成的比较基础的网络结构,一共包含12个333卷积结构。
hourglass结构主要是使用了encoder-decoder的思想,包含了重复的top-down/bottom-up结构并结合中间监督。在训练过程中会生成三个深度图。针对三个分支赋予不同的权重,最后预测的使用最后结果输出的深度图。
六、深度回归
作者参考了《 End-to-end learning of geometry and context for deep stereo regression》论文中的深度回归方法。其流程为先将多通道的深度图进行softmax操作,然后用乘以每层代表的深度。公式如下:
该深度图回归方法的鲁棒性比基于分类方法的鲁棒性更好。
模型训练过程中使用到的损失函数是Smoothl1Loss,该方法对异常值有较好的鲁棒性。
六、实验
在kitti2015上进行的消融实验。Val Err指的是kitti的3-px误差评价指标 EPE指的是预测出的深度和标签逐像素点上的误差。
PSMNET 在2018年3月18号以前的KITTI官网上的性能排名
PSMNET有其他网络在病态区域上的效果对比 黄色箭头表示PSMNET深度估计更好的地方。视察图下方的图是预测视察和标签之间的误差图。
七、总结
PSMNET通过SPP结构和3D CNN的应用在病态区域上取得了比之前网络更好的预测结果。并在2018年 3月 18日之前排名kitti2015和kitti2012的榜首。但是改论文的推理时间较大的问题也限制了该网络较难应用在一些实时性较高的设备上。总体上,该网络推动了双目立体匹配网络的相关研究。