【菜鸟学习论文】AANet：Adaptive Aggregation Network for Efficient Stereo Matching

最新推荐文章于 2024-08-21 09:02:02 发布

soleillllling

最新推荐文章于 2024-08-21 09:02:02 发布

阅读量1.5k

点赞数 2

分类专栏：立体匹配

本文链接：https://blog.csdn.net/qq_42344132/article/details/116704792

版权

立体匹配专栏收录该内容

16 篇文章 8 订阅

订阅专栏

3.4 Disparity Regression

3.5 损失函数

5.结论

摘要：

在本文中，我们的目标是完全取代常用的三维卷积，以实现快速推理速度，同时保持可比的精度。为此，我们首先提出了一种基于稀疏点的尺度内成本聚合方法，以缓解著名的边缘增肥问题。进一步，我们近似传统的跨尺度成本聚合与神经网络层算法来处理大的无纹理区域。

1.介绍

提出问题：如何在没有任何3D卷积的情况下实现最新的结果，同时取得更快的速度？（3d卷积需要很高的计算成本和内存消耗）

在本文中，我们证明了通过设计两个有效和高效的成本聚合模块，即使使用简单的特征相关[20]而不是连接[14]，在场景流和KITTI数据集上也可以获得具有竞争力的性能。

思想：

1.首先提出了一种新的基于稀疏点的尺度内成本聚合表示方法。如图1所示，对一组稀疏点进行自适应采样，以定位在具有相似差异的区域，缓解了差异不连续[29]下的边缘增胖问题。自适应权重实现成本聚合的特定位置加权。利用deformable convolution实现。

图1：(a)立体声对的左图像。(b)规则卷积中的固定采样位置，聚合权值也在空间上共享。(c)自适应采样位置和特定位置的聚合权重。(b)和(c)中的背景是基本真实差异

2.我们通过利用神经网络层并行构建多尺度成本体积并允许自适应多规模交互，利用神经网络层，进一步逼近传统的跨尺度成本聚合算法[44]，即使在低纹理或无纹理区域也能产生精确的视差预测。

3.我们还在特征提取阶段广泛利用了key ideas，从而实现了高效和准确的自适应聚合网络(AANet)。

3.方法

图2：1.利用共享的特征提取器提取1/3、1/6、1/12分辨率的下采样特征金字塔。
2.关联对应尺度的左右特征来构造多尺度的成本体积。
3.原始成本卷通过6个堆叠的AAmodules聚合。一个AAModule由3个ISA和1个CSA组成

3.1 Adaptive ISA

p:像素

K^2:采样点数量

pk:在基于窗口的成本聚合方法中对p的固定偏移量

wk:第k个点的聚合权重

mk:每个像素位置p的位置特定权重。

ISA： a stack of 3 layers and a residual connection

3.2 Adaptive CSA

因此，在传统的跨尺度成本聚合算法[44]中引入了多尺度交互。

对[44]的分析表明，最终的成本体积是通过在不同尺度上执行的成本聚合结果的自适应组合来获得的。

Ck：ISA在尺度k的聚合成本

fk:是实现每个规模成本体积的自适应组合的一般函数

k<s时，使用2^(s-k)倍下采样，使分辨率一致

k>s时，先双线性上采样到相同分辨率，再1x1卷积对齐通道的数量

3.3 AANetwork

所提出的ISA和CSA模块是互补的，可以集成，从而导致我们最终的自适应聚合模块(AA模块，见图2)。我们将6个AA模块进行成本聚合，而对于前三个AA模块，我们简单地使用常规二维卷积进行规模内聚合，因此本文总共将9个可变形卷积用于成本聚合。

我们的特征提取器采用了类似ResNet的[9]架构（总共40层），其中6个常规的二维卷积被它们可变形的卷积所取代。我们使用特征金字塔网络[19]来构建具有1/3、1/6和1/12分辨率的特征金字塔。在StereoDRNet[3]中提出的两个细化模块用于对1/3视差预测分层上采样到原始分辨率（即首先上采样到1/2分辨率，然后到原始分辨率）。结合所有这些组件，我们最终的自适应聚合网络(AANet)。

3.4 Disparity Regression

对于每个像素，采用soft argmin 获得视差预测：

Dmax是最大差异范围

σ是softmax的功能

cd是视差候选者d的聚合匹配成本

σ(cd)可以看作是视差为d的概率。

这个基于回归的公式可以产生亚像素的精度，因此在本文中被应用。

3.5 损失函数

我们的AANet是利用地面真相差异作为监督进行端到端训练。而对于KITTI数据集，视差地面真相的高稀疏性可能不能很有效地驱动我们的学习过程。受[10]中知识蒸馏的启发，我们提出利用预先训练好的立体模型的预测结果作为伪地面真相监督。具体地说，我们使用一个预先训练的模型来预测训练集上的视差图，并使用预测结果作为没有地面真实视差的像素中的伪标签（pseudo labels）。我们以预先训练好的GA-Net[43]模型为例，验证了该策略的有效性。

对于视差预测Dpred，先双线性上采样到原始分辨率。相应的损失函数定义为：

V(p)是二进制掩码，用来表示像素p的地面真实视差是否可用。

L是smooth L1损失

Dgt是地面真实视差

Dpseudo是伪地面真实视差

最终的损失函数是在所有差异预测上的损失的组合：

λi是一个用于平衡不同项的标量。

5.结论

我们提出了一种有效的成本聚合架构，并在场景流和KITTI数据集上通过高效和竞争性能证明了其优于常用的3D卷积。大量的实验也验证了所提方法的一般适用性。一个有趣的未来方向将是将我们的方法扩展到其他基于成本体积的任务，如高分辨率立体声匹配[37]、多视图立体声[38]和光流估计[30]。我们也希望我们的轻量级设计可以有利于下游任务，例如，基于立体的三维对象检测[34]。