《Adaptive Unimodal Cost Volume Filtering for Deep Stereo Matching》

最新推荐文章于 2022-12-08 16:19:06 发布

爱钻研的小铭

最新推荐文章于 2022-12-08 16:19:06 发布

阅读量2.4k

点赞数 1

分类专栏：基于深度学习的深度估计文章标签： AcfNet

本文链接：https://blog.csdn.net/qq_42676511/article/details/121673487

版权

基于深度学习的深度估计专栏收录该内容

35 篇文章 30 订阅

订阅专栏

代码

1. 研究问题

基于CNN的视差估计网络中，成本量通过为视差插值提供权重来间接监督，这使得成本量不受限制，因为无限多的成本分布可以产生相同的视差，而只有在真实视差处达到峰值的成本分布才是合理的。因此由视差回归驱动的间接学习成本量容易过拟合。

下图是PSMNet和AcfNet的视差softmax概率分布。
在这里插入图片描述

2. 研究方法

本文提出自适应单峰成本体积过滤网络 (AcfNet)，使用在真实视差处达到峰值的单峰分布直接监督成本量（过滤成本量），向成本量添加约束。此外，设计一个置信估计网络来估计每个像素的单峰分布的方差以明确模拟不同上下文下的匹配不确定性，控制单峰真值分布的清晰度。

2.1 AcfNet

在这里插入图片描述

提出的自适应单峰成本量过滤模块应用于成本量，并引入了额外的损失来直接监督成本量向所需属性的学习。本文选择 PSMNet 作为骨干网络来计算立体匹配的成本量。PSMNet将会产生三个成本量，分别输入自适应单峰成本量过滤模块进行成本过滤，并且产生三个视差图。

2.2 Overview

在这里插入图片描述

2.3 Unimodal distribution

在这里插入图片描述

2.4 Confidence estimation network

该网络采用 3*3 卷积层，然后进行批量归一化和 ReLU 激活，以及另一个 1*1 卷积层，然后进行 sigmoid 激活以生成置信度图，其中具有大置信度 fp 的像素 p 意味着可以自信地为该像素找到唯一的匹配，而小的置信值表示存在匹配歧义。

然后，从估计的置信度中可以得到对应于真实单峰分布的逐像素方差 $\sigma_p$

在这里插入图片描述

2.5 Stereo focal loss

若直接使用交叉熵损失来监督成本量分布，那么会发生样本不均衡问题，因为正视差样本只有一个，其他都是负视差样本，这样会导致损失函数中负样本占据主导地位，导致收敛困难。因此本文使用focal loss，提高正样本在损失中的权重，而降低负样本的权重。focal loss在单阶段的目标检测中用的很多。

在这里插入图片描述

当 $\alpha=0$ 时就是交叉熵损失， $\alpha>0$ 赋予正视差更多的权重。

2.6 Total loss function

在这里插入图片描述
$L_{confidence}$ 是正则项，鼓励更多的像素具有高置信度。

3. 实验结果

数据集：

场景流
KITTI 2012
KITTI 2015

训练：

优化器：RMSprop，标准设计
数据预处理：与PSMNet相同
对于场景流数据集
- 以恒定的学习率 0.001 训练 10 个时期。
对于KITTI
- 微调场景流数据预训练的模型 600 个时期。
- 学习率：从 0.001 开始，并在100 和 300 个时期时衰减 1/3 。
- 为了提交 KITTI 基准测试，以 0.001 的恒定学习率延长了场景流的训练过程，持续 20 个时期，以获得更好的预训练模型。
批量大小为3，最大视差为192。

3.1 Ablation studies

3.1.1 The variance $\sigma$ of unimodal distribution

在这里插入图片描述
表明了stereo focal loss在平衡正样本和负样本损失的有效性，相比于cross entropy，可以产生更精确的视差图。

在这里插入图片描述
当s=1， $\sigma$ 属于[1.0,2.0]时，EPE最小。

$\sigma$ 属于[1.0,2.0]时， $\sigma$ 的分布情况，可以看到，大部分的方差都很小，说明了大部分像素都服从尖锐的单峰分布。少部分像素是平坦的单峰分布。

3.1.2 Loss balance weights

在这里插入图片描述

3.1.3 Variance analysis

在这里插入图片描述
这个实验中，将AcfNet的大方差像素去除6.9%的时候，EPE便下降了50%。表明估计的方差与 EPE 误差高度相关，并展示了 AcfNet 用估计方差解释异常像素的能力。

在这里插入图片描述
在不适定区域，AcfNet提供了高方差来压平相应的成本分布。表明AcfNet 可以平衡不同像素的学习，并将有效像素推向高置信度（即低方差），同时允许具有高方差的困难无效像素以避免过度拟合。

3.1.4 Adaptive unimodal cost volume filtering

在这里插入图片描述
结果证明了单峰监督和自适应逐像素方差估计的有效性。

3.1.5 Cost volume filtering comparisons

在这里插入图片描述
AcfNet表现出更好的泛化性能（从SceneFlow泛化到KITTI），表明了自适应单峰代价过滤模块可以有效防止过拟合。

3.2 Comparisons with the state-of-the-art methods

在这里插入图片描述

AcfNet 的大部分改进来自具有挑战性的领域，例如薄结构、天空边界和图像边界。

4. 结论

（1）本文解决了现有基于深度学习的立体匹配方法中成本量的约束不足问题。
（2）所提出的 AcfNet 用在真实视差处达到峰值的真实单峰分布来监督成本量，并且自适应地估计每像素分布的方差以根据每个像素的信息量来调节学习。
（3）所提出的架构在SceneFlow和两个 KITTI 基准上实现了最先进的性能。特别是，我们的方法在KITTI 2012评测中排名第一，在KITTI 2015评测中排名第四（记录于2019.8.20）。