1. 研究问题
基于CNN的视差估计网络中,成本量通过为视差插值提供权重来间接监督,这使得成本量不受限制,因为无限多的成本分布可以产生相同的视差,而只有在真实视差处达到峰值的成本分布才是合理的。因此由视差回归驱动的间接学习成本量容易过拟合。
下图是PSMNet和AcfNet的视差softmax概率分布。
2. 研究方法
本文提出自适应单峰成本体积过滤网络 (AcfNet),使用在真实视差处达到峰值的单峰分布直接监督成本量(过滤成本量),向成本量添加约束。 此外,设计一个置信估计网络来估计每个像素的单峰分布的方差以明确模拟不同上下文下的匹配不确定性,控制单峰真值分布的清晰度。
2.1 AcfNet
提出的自适应单峰成本量过滤模块
应用于成本量
,并引入了额外的损失来直接监督成本量向所需属性的学习。本文选择 PSMNet
作为骨干网络来计算立体匹配的成本量。PSMNet将会产生三个成本量,分别输入自适应单峰成本量过滤模块进行成本过滤,并且产生三个视差图。
2.2 Overview
2.3 Unimodal distribution
2.4 Confidence estimation network
该网络采用 3*3
卷积层,然后进行批量归一化和 ReLU 激活,以及另一个 1*1
卷积层,然后进行 sigmoid 激活以生成置信度图,其中具有大置信度 fp 的像素 p 意味着可以自信地为该像素找到唯一的匹配,而小的置信值表示存在匹配歧义。
然后,从估计的置信度中可以得到对应于真实单峰分布的逐像素方差 σ p \sigma_p σp
2.5 Stereo focal loss
若直接使用交叉熵损失来监督成本量分布,那么会发生样本不均衡
问题,因为正视差样本只有一个,其他都是负视差样本,这样会导致损失函数中负样本占据主导地位,导致收敛困难。因此本文使用focal loss
,提高正样本在损失中的权重,而降低负样本的权重。focal loss在单阶段的目标检测
中用的很多。
当 α = 0 \alpha=0 α=0时就是交叉熵损失, α > 0 \alpha>0 α>0赋予正视差更多的权重。
2.6 Total loss function
L
c
o
n
f
i
d
e
n
c
e
L_{confidence}
Lconfidence是正则项,鼓励更多的像素具有高置信度。
3. 实验结果
数据集:
- 场景流
- KITTI 2012
- KITTI 2015
训练:
- 优化器:RMSprop,标准设计
- 数据预处理:与PSMNet相同
- 对于场景流数据集
- 以恒定的学习率
0.001
训练10
个时期。
- 以恒定的学习率
- 对于KITTI
- 微调场景流数据预训练的模型
600
个时期。 - 学习率:从
0.001
开始,并在100
和300
个时期时衰减1/3
。 - 为了提交 KITTI 基准测试,以
0.001
的恒定学习率延长了场景流的训练过程,持续20
个时期,以获得更好的预训练模型。
- 微调场景流数据预训练的模型
- 批量大小为3,最大视差为192。
3.1 Ablation studies
3.1.1 The variance σ \sigma σ of unimodal distribution
表明了stereo focal loss在平衡正样本和负样本损失的有效性,相比于cross entropy,可以产生更精确的视差图。
当s=1,
σ
\sigma
σ属于[1.0,2.0]时,EPE最小。
σ \sigma σ属于[1.0,2.0]时, σ \sigma σ的分布情况,可以看到,大部分的方差都很小,说明了大部分像素都服从尖锐的单峰分布。少部分像素是平坦的单峰分布。
3.1.2 Loss balance weights
3.1.3 Variance analysis
这个实验中,将AcfNet的大方差像素去除6.9%的时候,EPE便下降了50%。表明估计的方差与 EPE 误差高度相关,并展示了 AcfNet 用估计方差解释异常像素的能力。
在不适定区域,AcfNet提供了高方差来压平相应的成本分布。表明AcfNet 可以平衡不同像素的学习,并将有效像素推向高置信度(即低方差),同时允许具有高方差的困难无效像素以避免过度拟合。
3.1.4 Adaptive unimodal cost volume filtering
结果证明了单峰监督和自适应逐像素方差估计的有效性。
3.1.5 Cost volume filtering comparisons
AcfNet表现出更好的泛化性能(从SceneFlow泛化到KITTI),表明了自适应单峰代价过滤模块可以有效防止过拟合。
3.2 Comparisons with the state-of-the-art methods
AcfNet 的大部分改进来自具有挑战性的领域,例如薄结构、天空边界和图像边界。
4. 结论
(1)本文解决了现有基于深度学习的立体匹配方法中成本量的约束不足问题。
(2)所提出的 AcfNet 用在真实视差处达到峰值的真实单峰分布来监督成本量,并且自适应地估计每像素分布的方差以根据每个像素的信息量来调节学习。
(3)所提出的架构在SceneFlow和两个 KITTI 基准上实现了最先进的性能。特别是,我们的方法在KITTI 2012评测中排名第一,在KITTI 2015评测中排名第四(记录于2019.8.20)。