《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》

1. 研究问题

现有的端到端网络,即使具有复杂的级联结构,在无纹理、薄结构、边界和微小细节区域也可能会失效,且级联结构具有高计算复杂度。

2. 研究方法

2.1 灵感来源

  • 人类可以通过利用边缘信息轻松找到立体对应关系。准确的边缘轮廓有助于区分不同的对象或区域。
  • 此外,人类基于不同尺度的全局感知在无纹理或遮挡区域中很好地执行双眼对齐。

2.2 方法

提出了一个由主干视差网络和边缘子网络组成的多任务网络 EdgeStereo,它将边缘信息和边缘正则化整合到视差预测网络中。首先,设计了一个视差网络,称为基于上下文金字塔的残差金字塔网络(CP-RPN),该网络包含两个模块,用于编码不适定区域的多尺度上下文信息的上下文金字塔,以及用于级联细化的紧凑的残差金字塔。其次,设计了边缘子网络,通过特征嵌入和边缘感知平滑度损失以整合边缘信息,以保留细微的细节。

上下文在立体匹配中的定义: 对于立体匹配,可以将其视为对象与其周围环境或其子区域之间的关系,这有助于推断出对应关系,尤其是对于不适定区域。

2.1 Basic Architecture

在这里插入图片描述
我们的 EdgeStereo 的整体架构如图2所示。为了有效地结合两个任务,边缘分支与骨干网络的视差分支共享浅层计算

骨干网络(采用VGG16)的浅层部分(conv1_1 到 conv3_3)用于从输入对中提取图像特征 F l F^l Fl F r F^r Fr (分辨率为输入图像的1/4),携带局部语义信息。然后使用 DispNetC 中的相关层来捕获特征空间中 F l F^l Fl F r F^r Fr之间的粗略对应关系,获得成本量 F c F_c Fc(最大视差为40)。我们还在 F l F^l Fl上应用卷积块来提取缩减图像特征 F r l F^l_r Frl。同时,为了利用具有边缘线索的表示,我们采用边缘子网络从左图像计算边缘特征 F e l F^l_e Fel。将缩减图像特征 F r l F^l_r Frl、成本量 F c F_c Fc和边缘特征 F e l F^l_e Fel连接起来,然后通过1 * 1卷积进行融合,形成混合特征表示 F m F_m Fm

F m F_m Fm作为输入,上下文金字塔四个尺度上收集上下文信息,并将它们聚合到一个分层场景先验中,用于视差估计。上下文金字塔中的每个尺度都从具有不同接受域的不同子区域捕获上下文线索。

接下来,我们将场景先验输入沙漏结构以预测全尺寸视差图,其中编码器是一堆卷积层来下采样特征图(下采样因子总共为64),解码器由我们的残差金字塔制定。在残差金字塔中进行多尺度处理,在最小尺度上直接对视差图进行回归,并在其他尺度上预测残差图以进行细化(一共有7个尺度)。边缘特征边缘图被馈送到残差金字塔中的每个尺度,帮助保留视差图中的细节。边缘图还指导边缘感知平滑度损失正则化下的视差或残差学习。

边缘子网络:

我们修改了 HED [22] 的结构并提出了一个称为 H E D β HED_\beta HEDβ 的边缘子网络,其中低级边缘特征更容易获得,并且生成的边缘图更具有语义意义。 H E D β HED_\beta HEDβ 使用从 conv1_1 到 conv5_3 的 VGG-16 主干。此外,我们分别设计了来自 conv1_2、conv2_2、conv3_3、conv4_3 和 conv5_3 的 5 个侧分支。每个侧分支由两个 3_3 卷积层、一个上采样层和一个 1_1 卷积层组成,产生边缘概率图。最后,将每个侧分支中每个上采样层的特征图连接起来作为最终边缘特征,同时将每个侧分支中的边缘概率图融合为最终边缘图。最终的边缘特征和边缘图是全尺寸的。

在这里插入图片描述

2.2 Context Pyramid

许多立体方法通过堆叠大量卷积块来学习这些关系。不同的是,我们通过上下文金字塔显式地编码上下文线索,因此学习场景的立体几何更容易。此外,单尺度上下文信息是不够的,因为存在任意大小的对象。过度关注全局信息可能会忽略小尺寸的物体,而如果感受野很小,大物体的视差可能会不连续。因此,提出的上下文金字塔旨在以有效的方式捕获多尺度上下文线索。

我们在上下文金字塔中使用了四个具有相似结构的并行分支。正如PSPNet中提到的,感受野的大小粗略地表明了我们使用上下文的程度。因此,四个分支拥有不同的接受域以捕获不同尺度的上下文信息。最大的上下文尺度对应于最大的接受域。据我们所知,卷积、池化和空洞操作可以扩大接受域。因此我们分别设计了卷积上下文金字塔、池化上下文金字塔和空洞上下文金字塔。其中最好的一个嵌入在EdgeStereo中。

如图 3(a) 所示,四个分支的输出以及输入Fm被连接为分层场景先验,携带用于视差估计的低级语义信息和全局上下文线索。

在这里插入图片描述

2.3 Residual Pyramid

许多立体方法(比如CRL)使用级联结构进行视差估计,其中第一个网络生成初始视差预测,第二个网络生成残差信号以纠正初始视差。然而,这些残差信号很难学习(残差总是接近于零),因为初始视差预测非常好。此外,这些多级结构在计算上是昂贵的。为了优化级联结构,我们设计了一个残差金字塔,以便在单个网络中进行初始视差学习和视差调整。

为了使多尺度视差估计更容易,我们在最小尺度上回归视差图,为了得到更大的视差图,我们在最小尺度上估计相对于视差图的残差信号。残差金字塔的结构使 EdgeStereo 成为一个有效的单阶段结构。此外,残差金字塔可以有利于整体训练,因为它减轻了过度拟合的问题。

残差金字塔中的尺度数 S 与编码器结构一致。

如图 3(b) 所示,残差金字塔中的最小尺度产生视差图 d S d_S dS(全分辨率的 1 / 2 S − 1 1/ 2^{S-1} 1/2S1),然后不断上采样并在更大尺度上与残差图 r s r_s rs 重合,直到得到全分辨率视差图 d 0 d_0 d0。如下式所示:

在这里插入图片描述
对于每个尺度,各种信息被聚合以预测视差或残差图,包括来自编码器的具有更高频率信息的跳跃连接特征图、边缘特征和边缘图(均插值到相应的尺度)以融合边缘线索和几何约束。对于每个尺度(最小尺度除外),根据视差图将右图变换到左图,然后将重建左图和真实左图的误差作为几何约束来帮助学习残差。

在这里插入图片描述

2.4 Cooperation of Edge Cues

基本视差估计网络 CP-RPN 在普通和无纹理区域上效果很好,在这些区域中,匹配线索清晰,或者可以通过上下文金字塔轻松捕获上下文线索。然而,如下图的第二行所示,由于太多的卷积和下采样操作,视差图中的细节丢失了。因此,我们利用边缘线索来帮助调整视差图。
在这里插入图片描述

首先,我们通过嵌入边缘特征来合并边缘线索。一方面,在上下文金字塔之前,我们将嵌入边缘特征 F e l F^l_e Fel与图像特征 F r l F^l_r Frl 和成本量 F c F_c Fc 连接起来。通过串联,我们期望上下文金字塔在提取上下文线索时可以同时考虑局部语义信息、匹配成本分布和边缘表示。另一方面,边缘特征被内插并连接到残差金字塔中的每个尺度。这种特征嵌入缓解了残差金字塔缺乏低级表示来产生准确的视差和残差信号的问题。

其次,我们调整边缘图的大小并将其提供给残差金字塔中的每个尺度。边缘图充当隐式正则化项,可以帮助平滑非边缘区域中的视差并保留视差图中的边缘。因此,边缘子网络的行为不像黑盒。

最后,我们将边缘图正则化为边缘感知平滑度损失,这是视差估计的有效指导。对于视差平滑损失 L d s L_{ds} Lds,我们鼓励视差局部平滑,损失项惩罚非边缘区域的深度变化。为了允许对象轮廓处的深度不连续,以前的方法(比如《Unsupervised monocular depth estimation with left-right consistency》) 根据图像梯度对这个正则化项进行加权。不同的是,我们根据边缘图的梯度对这个正则化项进行加权,这比强度变化在语义上更有意义。如下式所示,N表示像素数,𝜕𝑑 表示视差梯度,𝜕𝜀表示边缘概率图的梯度。

在这里插入图片描述

2.5 Multi-phase Training Strategy and Objective Function

为了对 EdgeStereo 进行多任务学习,我们提出了一种多阶段训练策略,其中训练阶段分为三个阶段。骨干网络的权重在所有三个阶段都是固定的。

在第一阶段,边缘子网络在边缘检测任务的数据集上进行训练,由 [23] 中提出的类平衡交叉熵损失引导。

在第二阶段,我们监督立体数据集上 S 个尺度的回归视差,此时固定边缘子网络的权重,训练视差子网络。损失函数如下所示:

在这里插入图片描述

在第三阶段,EdgeStereo 中的所有层都在第二阶段使用的相同立体数据集上进行了优化。同样,我们也采用跨 S 尺度的深度监督。然而,此阶段不使用边缘感知平滑度损失,因为第二阶段的边缘轮廓比第三阶段的边缘轮廓更稳定。因此,尺度 s 处的损失为:
C s = L r C_s = L_r Cs=Lr

3. 实验结果

3.1 Ablation Studies

在这里插入图片描述
在这里插入图片描述
加入边缘提示,视差图的边缘微小细节更好。

3.2 Comparisons with Other Stereo Methods

Scene Flow Results

在这里插入图片描述
(1)与最先进的非端到端和端到端网络相比,都达到了最佳性能。
(2)薄结构和边缘细节更准确。

KITTI Results

在这里插入图片描述
在大遮挡、无纹理、薄结构处也能得到精确的视差。

在这里插入图片描述
感觉是网络没调好。速度上是挺快的。

在这里插入图片描述
细节上效果已经不错了,但一些小物体的边缘效果依然存在模糊,比如指示牌。
在这里插入图片描述
边缘分支使得在薄结构、边缘区域更加的清晰,精确。

Better Edge Map

在这里插入图片描述
从视差分支学习的几何知识有利于提升边缘图的细节。

4. 结论

场景流数据集和 KITTI 立体基准测试中达到了最先进的性能,证明了我们设计的有效性。

参考文献

[22] Holistically-nested edge detection. ICCV-2015
[23] Richer convolutional features for edge detection. CVPR-2017
[29] Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值