论文阅读《Cascade Residual Learning: A Two-stage Convolutional Neural Network for Stereo Matching》

摘要

为解决在立体匹配内在的病态区域(目标遮挡、重复模式、无纹理区域等)难产生高质量的视差问题,这篇论文提出一种新颖的由两个阶段组成的堆叠卷积神经网络结构。第一个阶段:利用DispNet,加上额外的能够使视差图获得更多细节的反卷积模块。第二个阶段:修正由第一阶段产生的初始视差,结合第一阶段产生多尺度的残差信号。两个阶段的输出的和给出最终的视差。因此第二个阶段不是直接学习视差,而是通过残差学习提供更有效的精细化。

1 介绍

这篇论文提出的堆叠残差学习(CRL)由两个沙漏结构的卷积神经网络阶段组成。在第一阶段,利用一个简单而不平凡的反卷积模块产生细纹理视差,为第二阶段的残差学习建立一个良好的起点。在第二阶段,视差通过在多尺度产生的残差信号得到修正。学习残差比直接学习视差简单,与ResNet的机制相似。当初始视差已经最优,第二阶段的网络可以简单地产生0残差来保持最优。在ResNet中,残差构建块(residual blocks)一个一个堆叠,每个残差块不能直接监督。与ResNet不同,这篇论文在多个尺度上嵌入残差学习机制,单个残差块可以通过ground-truth视差和初始视差直接差监督,因此带来优秀的视差精细化。

2 相关工作

传统立体匹配算法由四步组成:1)匹配代价计算;2)代价聚合;3)视差计算;4)视差精细化。而基于CNN的视差估计方法映射传统方法的部分或全部步骤,可以大致分为三类:
匹配代价学习:CNNs用来衡量图像块之间的相似性,如MC-CNN、Content-CNN。尽管数据驱动的相似性度量比传承手工制作性能更好,这些方法仍然需要一系列后处理步骤(传统方法的2)-4)步)来产生良好的结果。
正则化学习:视差图通常是分段平滑的,因此一些方法在学习的过程中利用了平滑约束。有些方法用新的值替换不可靠的视差,但这会浪费计算。有些方法则联合目标检测或语义分割来正则化。
端到端的视差学习:DispNet、GC-NET

3 堆叠残差学习

这里写图片描述

3.1 两阶段视差计算

动机:视差估计和光流估计可以通过事后的迭代精细化来改进。FlowNet2.0使用堆叠的CNNs来精细化光流。
与DispNetC类似,本论文提出的CNN的第一阶段有一个带跳跃连接的沙漏结构。然而,DispNetC输出输入立体图像的半分辨率视差图像。而本论文的网络利用了额外的反卷积模块来放大视差,因此获得与输入图像具有相同尺寸的视差图。第一阶段的网络叫做DispFulNet(Ful表示全分辨率)。DispFulNet在目标的边界提供额外的细节和尖锐的转变,为第二阶段的精细化提供了一个理想的起点。
在本来论文的网络中,第一阶段和第二阶段的堆叠方式同FlowNet2.0。第一个网络输入立体图像对 ILIR I L 和 I R ,产生左图的初始视差 d1 d 1 。然后根据视差 d1 d 1 扭曲右图像 IR I R ,获得一个合成的左图像,即

I˜L(x,y)=IR(x+d1(x,
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值