#每天一篇论文 269/365 ActiveStereoNet: End-to-End Self-SupervisedLearning for Active Stereo Systems

最新推荐文章于 2022-10-27 02:48:18 发布

流浪机器人

最新推荐文章于 2022-10-27 02:48:18 发布

阅读量332

点赞数

分类专栏：论文每天读

本文链接：https://blog.csdn.net/qq_26623879/article/details/103192198

版权

论文每天读专栏收录该内容

8 篇文章 4 订阅

订阅专栏

ActiveStereoNet:主动双目系统端到端自监督学习

引用 https://blog.csdn.net/goodanchor/article/details/81557631

摘要

本文首次提出了第一个主动双目视觉系统的深度学习解决方案 ActiveStereoNet。由于缺乏 ground truth，本文采用了完全自监督的方法，即使如此，本方法也产生了 1/30 亚像素精度的深度数据。它克服了过度平滑的问题，保留了边缘，并且能有效处理遮挡。在本文中，引入了一种对噪声，无纹理区域和光照更加鲁棒的新的重建损失，它使用基于窗口的自适应支持权重的成本聚合来进行优化。这种成本聚合函数能够保留边缘并且使损失函数平滑，是使模型达到惊人结果的关键。最后，本文展示了如何在没有ground truth下对无效的区域，遮挡区域的预测进行end-to-end的训练。这部分对减少模糊和改善预测数据的连续性至关重要。

方法

在这里插入图片描述

Invalidation Network

上述中的loss并没有处理遮挡和错误匹配。遮挡区域并不能在成本项中提供任何有效的信息。为解决遮挡问题，传统的立体匹配方法采用左右一致性校验方法即，将左右视差差值小于某个阈值，相反，本文提议定义一个对像素的mask,的左侧检查作为硬性条件限制，，的像素在loss计算中会被忽略。为了避免（即所有像素都无效）的无脑情况，我们通过在每个像素位置中使用恒定标签1最小化交叉熵损失来对有效像素的数量实施正则化。我们在低分辨率差异和最终分辨率差异中使用此掩码。

同时，本结构训练一个全卷积的无效性网络，将Siamese塔的特征图作为输入，产生一个低分辨率的无效区域mask, 然后将其上采样到并且使用微调模块进行微调。这个网络避免在运行时对左右一致性进行校验，让推断更快。

Experiments

本文进行了一系列实验来对模型进行评估，除了分析深度预测的准确性，并将其与以前的成果相比之外，我们还提供消融研究的结果，以研究拟损失的每个组成部分会对结果造成什么影响。在补充材料中，我们还评估了我们提出的self-supervised loss 方法在passive (RGB) stereo中的适用性，该方案表现出更高的泛化能力，在许多基准测试中达到了令人印象深刻的结果。

Stereo Matching Evaluation

在本节中，使用传统的双目立体匹配指标（如抖动和偏差），定性、定量地将我们的方法在实际数据的实验中与最先进的立体算法进行比较。

抖动与偏差假设某立体匹配系统的基线标准为b，焦距为f，子像素视差精度为δ，则视差精度的深度误差e与深度Z的平方成正比。由于视差误差对深度的影响是可变的，一些简单的评估度量（如视差的平均误差）不能有效地反映估计深度的质量。而我们的方法首先标出深度估计的误差，然后计算视差中的相应误差。

为了评估ASN的子像素精度，我们记录了相机在平坦的墙壁前记录的100帧图像，相机距离墙壁的范围从500毫米到3500毫米不等，还有100帧，然后让相机成50度角朝向墙壁，再记录100帧，用来评估倾斜表面上的图像。在本例中，我们将得到的结果与高鲁棒性的平面拟合获得的“ground truth”进行对比评估。

实验结果显示本文方法的数据偏差降低了一个数量级，子像素精度为0.03像素，而且抖动非常低。我们还展示了距离墙壁3000毫米时，多种方案下预计出现的点云。请注意，尽管距离较远（3米），但其他方法相比，我们的结果噪音更低。
在这里插入图片描述

为了表示精度，我们将偏差计算为预测深度和真实值之间的平均误差l1。图中所示为关于我们所用的方法的深度偏差和传感器输出、现有最佳技术的局部立体化方法（PatchMatch，HashMatch），以及我们所使用的最先进的非监督式训练出的模型，并对点云做了表面法线着色处理的可视化操作。我们的系统在距墙壁全部距离上的性能都明显优于其他方法，并且其误差不会随着深度增加而显着增加。我们系统对应的子像素视差精度为1/30像素，这是通过使用上述方程（也在图5中给出）拟合曲线而获得的。这比其他方法的精度（不高于0.2像素）精确一个数量级。

为了表示噪声，我们将抖动（Jitter）计算为深度误差的标准偏差。如上图表明，与其他方法相比，我们的方法在几乎每个深度上都能实现最低的抖动。

与最新技术比较在具有挑战性的场景中对ASN的更多定性评估如图所示。可以看出，像PatchMatch和HashMatch这样的局部方法无法处理有源光和无源光的混合照明场景，因此会产生不完整的差异图像（缺失像素显示为黑色）。使用半全局方案的传感器输出更适合此类数据，但仍然容易受到图像噪声的影响（请注意第四列中的噪声结果）。