https://zhuanlan.zhihu.com/p/53055789
目录
https://zhuanlan.zhihu.com/p/53055789
摘要
问题:然而,现有的方法,即使是复杂的级联结构,也可能在非纹理、边界和微小细节的区域失效。
针对这些问题,我们提出了一个由主干视差网络和边缘子网络组成的多任务网络边缘立体声器。给定一个双目图像对,我们的模型能够端到端预测视差图和边缘图。我们设计了一个上下文金字塔来编码视差分支中的多尺度上下文信息,然后是一个紧凑的剩余金字塔来用于级联细化。为了进一步保留微妙的细节,我们的边缘立体声模型通过特征嵌入和边缘感知平滑损失正则化来集成了边缘线索。比较结果表明,在统一模型中,立体匹配和边缘检测可以相互帮助。
1.介绍
近来端到端视差估计网络缺点:
1.很难处理不适态区域的局部歧义
2.级联结构或3D卷积计算贵
3.对薄结构或近边界的视差预测并不准确。
另一方面,人类可以利用边缘线索很容易地找到立体声对应关系。精确的边缘轮廓可以帮助区分不同的物体或区域。此外,人类基于在不同尺度上的全球感知,在无纹理或遮挡区域进行双目对齐。
1.设计一个视差估计网络:基于上下文金字塔的残余金字塔网络(CP-RPN)。为CP-RPN设计了两个模块:一个上下文金字塔用于编码不适定区域的多尺度上下文信息,和一个one-stage剩余金字塔用以简化级联细化结构。
2.其次,在统一模型中设计并使用了一个边缘检测子网络,以保留边缘线索的微妙细节。
两个任务之间的相互作用有三个方面:
(i)边缘特征被嵌入到差异分支中,提供局部和低层次的表示。
(ii)边缘映射,作为一个隐式的正则化项,被馈送给剩余的金字塔。
(iii)边缘映射也用于边缘感知平滑损失,进一步指导视差学习
3 方法
为了有效地结合两个任务,边缘分支与主干网络上的视差分支共享浅层计算。
3.2 Context Pyramid
上下文信息,对于立体匹配,它可以看作是物体与其周围环境或子区域之间的关系,这可以有助于推断对应,特别是对非法区域的对应。本文通过上下文金字塔明确的编码上下文线索,有效捕捉多尺度的信息。
使用了四个具有相似结构的平行分支,因此,有四个分支拥有不同的接受域,以捕获不同尺度上的上下文信息。最大的上下文尺度对应于最大的接受域。
据我们所知,卷积、池化和扩张的[29]操作可以扩大接受域。因此,我们分别设计了卷积上下文金字塔、池化上下文金字塔和扩展上下文金字塔。其详情详见第4.1节。最好的一个是嵌入在边缘立体声中。

四个分支的输出和输入Fm被连接作为层次场景之前,携带低级语义信息和全局上下文线索进行视差估计。
3.3 Residual Pyramid
由于搜索范围很窄,需要的细节很少,所以在最小尺度上回归视差图更容易。为了得到更大的视差图,我们估计了在最小尺度上相对于视差图的剩余信号。残余金字塔的公式使EdgeStereo成为一个有效的单级结构。此外,残余金字塔可以有利于整体训练,因为它缓解了过拟合的问题。
ds:Residual Pyramid产生的视差图
u:上采样
s:金字塔尺度
3.4 Cooperation of Edge Cues
但如图1第二行所示,由于卷积和下采样操作过多,视差图中的细节丢失。因此,我们利用边缘线索来帮助细化视差图。
1.首先,我们通过嵌入边缘特征来配合边缘线索。一方面,在上下文金字塔前,我们将插值的边缘特征Fle与图像特征Flr和成本体积Fc结合起来。通过连接,我们期望上下文金字塔在提取上下文线索时可以同时考虑局部语义信息、匹配的成本分布和边缘表示。另一方面,边缘特征被插值并连接到残余金字塔中的每个尺度上。这一特征嵌入减轻了残余金字塔缺乏低层次表示来产生精确的方差和残余信号的问题。
2.调整边缘映射edge map 的大小,并将其输入到不同尺度的残余金字塔residual pyramid。边缘映射作为一个隐式正则化项,可以帮助平滑非边缘区域的不差,并在视差图中保留边缘。
3.最后,将边缘映射正则化为边缘感知光滑度损失,这是视差估计的有效指导。对于视差光滑损失Lds,我们鼓励视差是局部光滑,损失项惩罚非边缘区域的深度变化。为了考虑对象等高线的深度不连续,以前的方法[31,15]根据图像梯度对这个正则化项进行权重。不同的是,我们根据边缘映射的梯度来加权这个项,这在语义上比强度变化更有意义。等式2中,N表示像素数,∂d表示视差梯度,∂E表示边缘概率图的梯度。
3.5 多阶段培训策略与目标功能
我们提出了一种多阶段的训练策略,即将训练阶段分为三个阶段。主干网的权重在三个阶段固定。
在第一阶段,在[23]中提出的边缘检测任务的指导下,引入类平衡交叉熵损失。
在第二阶段,我们在立体数据集上监督在S尺度上回归的差异。除了视差平滑损失外,我们还采用视差回归损失Lr进行监督学习,如等式3所示。
其中,dˆ表示地面真实视差图。
因此,尺度s的整体损失变成了Cs=Lr+λds*Lds,其中λds是平滑损失的损失重量。此外,边缘子网络的权重是固定的
在第三阶段,EdgeStereo的所有层都在第二阶段使用的立体数据集上进行优化。同样地,我们也采用了跨S尺度的深度监督。然而,在这个阶段并不使用具有边缘感知性的平滑度损失,因为第二阶段的边缘轮廓比第三阶段的边缘轮廓更稳定。因此,在规模s上的损失是Cs=Lr。