论文笔记《Learning Deep Correspondence through Prior and Posterior Feature Constancy》

摘要

立体匹配算法通常由四步组成:代价计算、代价聚合、视差计算和视差精细化。现有的基于CNN的立体匹配方法仅仅采用CNN来解决四步中的部分,或者使用不同的网络来处理不同的步骤,这使得它们很难获得全局最优的解决方案。这篇论文提出了一个合并了立体匹配所以步骤的网络结构。网络由三部分组成:第一部分计算多尺度共享特征。第二部分进行匹配代价计算、匹配代价聚合以及视差计算,以通过使用共享特征估计初始视差。初始视差和共享特征被用来计算在前的和较好的(prior and posterior)feature constancy。第三部分将initial disparity、prior feature constancy和posterior feature constancy输入一个子网络,以通过贝叶斯推理过程来精细化初始视差。


1 介绍

MC-CNN、Content-CNN、L-ResMatch等方法的限制:在计算每个可能的视差的匹配代价时,网络必须执行多个前向传递过程,这导致大的计算负担;遮挡区域的像素不能用于训练,因此这些区域很难获得一个可靠的视差估计;需要使用多个启发式的后处理步骤来精细化视差。在这些方法中,代价聚合和视差计算步骤通过最小化定义在匹配代价之上的能量方程来解决,如SGM。
GC-NET、DispNetC:直接堆叠几个卷积层来训练完整的网络以最小化网络输出与真值视差之间的距离,比起仅仅使用CNN计算匹配代价的方法,精度更高,计算更快。
DRR、CRL:和前两个网络一样,所谓完整的网络只是完成代价计算、代价聚合、初始视差计算。然后再用一个或多个网络来精细化初始视差。将视差精细化步骤和其他三个步骤整合在一起是非平凡的。
本论文:为了建立视差计算和视差精细化之间的桥梁,论文提出使用feature constancy来识别初始视差的正确性,然后将视差精细化任务构建成贝叶斯推理过程。“constancy”是从光流估计中引用而来。“Feature constancy”是指两个像素在特征空间中的对应关系。特别地,初始视差被当做prior disparity,以初始视差为条件的特征空间的重建错误被当做posterior feature constancy,从左右图提取的特征之间的correlation被当做prior feature constancy。然后,视差精细化任务的目标是通过一个子网络估计以feature constancy为条件的posterior disparity。(好多新的专有名词,看论文时要注意回头看定义)
论文贡献:1)将立体匹配中的所有步骤融合进一个网络以提高精度和速度;2)把视差精细化任务表达成一个使用恒定特征的贝叶斯推理过程;3)在KITTI测试基准上获得最好的效果。


2 相关工作

(总结一下)现有的基于CNN的立体匹配方法大致可以分为以下三类:
1)学习匹配代价(CNN for Matching Cost Learning):
MC-CNN[1]: 计算两个 9×9 图像块之间的匹配代价,然后再使用一系列的后处理步骤:基于交叉的代价聚合、半全局匹配、左右一致性校验、亚像素提升以及中值滤波器和双边滤波器。需要多个前馈过程来计算所有可能的视差的匹配代价,因而计算昂贵。
Content-CNN[2]: 将网络训练成多分类分类器,并引入了内积层来计算siamese架构的两个特征向量之间的内积,以减少计算时间。
L-ResMatch[4]: 使用具有多等级权重的残差捷径的高速网络来计算视差。这个架构比MC-CNN、传统的高速网络、ResNets、DenseNet已经ResNets of ResNets效果要好。
2)回归视差(CNN for Disparity Regression)
端到端训练的CNN直接从立体图像对估计视差。
DispNetC[5]:提出一种用于回归视差的编码-解码架构。匹配代价计算无缝地融合到编码部分,视差直接在一个前向过程回归得到。
GC-NET[6]: 在匹配代价上使用3D卷积来融合上下文信息,并且通过一个可微的“soft argmin”操作来回归视差。
这两个网络的运行速度都很快,但是网络中没有包括视差精细化步骤,因为限制了他们的性能。
3)多个网络(Multiple Networks)
L-ResMatch[4]:在使用高速网络计算匹配代价之后,再使用一个额外的全局视差网络来替换传统方法中的WTA。这个方法提高了遮挡、扭曲、高反和稀疏纹理区域的性能。
DRR[7]: 使用Content-CNN来计算初始视差,然后用另外一个网络精细化视差。
SGM-Net[8]: 使用SGM-Net来学习SGM参数化,获得比手工定义的方法更好地效果。
CRL[9]: 在DispNetC之上叠加了一个用于精细化视差的网络。


3 本论文方法

这篇论文把传统匹配方法中的四个步骤融合到一个单一的网络中,这样每个步骤都可以共享特征,并且可以联合优化,即端到端训练。所提出的的网络由三部分组成:多尺度共享特征提取部分、初始视差估计部分和视差精细化部分。

这里写图片描述

这里写图片描述

3.1 用于多尺度特征提取的茎块

stem block从两张输入图像提取多尺度共享特征,用于初始视差估计子网络和视差精细化子网络。(左右分支共享权重,以左分支为例)包含两层卷积层(步长为2,通道数: conv1a: 3->64, conv2a: 64->128)以减小输入图像的分辨率,然后再通过两层反卷积层分别上采样两层卷积层的输出到全分辨率(通道数: up_conv1a: 64->32,up_conv2a: 128->32)。这两个上采样的特征再通过一个 1×1

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值