【双目深度估计】——stereo net 分层细化实时网络

最新推荐文章于 2024-07-17 14:27:17 发布

农夫山泉2号

最新推荐文章于 2024-07-17 14:27:17 发布

阅读量1.4k

点赞数 1

分类专栏：双目深度文章标签：深度学习人工智能计算机视觉双目深度估计

本文链接：https://blog.csdn.net/u011622208/article/details/126726258

版权

双目深度专栏收录该内容

2 篇文章 0 订阅

订阅专栏

来自：google
时间：2018
论文：https://arxiv.org/abs/1807.08865v1

摘要

在当前的硬件条件下，实现一个实时深度估计的网络
为了实时性，在低分辨率下采用原始的方法得到初始的视差图，在采用分层迭代细化的方法，细化初始视差图的细节等。

1. 创新点

我们证明，一个非常低的分辨率成本体积足以实现深度精度，相当于一个传统的立体匹配系统，在全分辨率下运行。为了实现空间精度，我们以多尺度的方式应用边缘感知滤波阶段，以提供高质量的输出

我们证明，使用网络能在非常低的分辨率下的成本体积实现传统方法在全尺寸上的匹配效果。从而产生一种极其高效的算法
一个新的层次深度细化层，能够执行高质量的上采样，保留边缘。

2. 相关工作

[42]提出了一种级联迭代优化预测深度的方法。迭代优化方法虽然在各种基准测试中显示出良好的性能，但往往需要大量的计算资源。[29]，他使用了成本量过滤的概念，但对功能和过滤器进行了端到端训练，取得了令人印象深刻的结果。这和CVPR2022的ACVNET想法一致呀

3. stereo net

3.1 初始

深度学习发展以来。视差估计可以将左、右两张图送入到U-net类似的网络，用一个通用的输入-输出映射来学习视差估计。由于它没有用任何针对视差的信息，如视觉相似性，因此其需要大量的参数参数和训练数据来学习。这就是纯粹的数据驱动，这种方法没有捕捉到任何立体匹配问题的几何直觉。立体视觉预测首先是一个对应匹配问题。
在这里插入图片描述

3.2 粗糙预测，代价匹配过滤

用同样的主干网络对两张图片分别提特征
构建cost volume矩阵，尺寸为: $W/2^K \times H/2^K \times D/2^K \times dims$ , 其中的dims是单个点编码的特征维度。
cost volume过滤，堆叠几个conv3d层进行过滤。
视差回归：对cost volume 中的 $D/2^K$ 维度做softmax，再乘以[0,1, 2, …, D/2^k-1]，实现可微分的端到端训练