每天一篇论文 309/365 How do neural networks see depth in single images?

最新推荐文章于 2024-02-20 18:50:20 发布

流浪机器人

最新推荐文章于 2024-02-20 18:50:20 发布

阅读量813

点赞数 1

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/103867028

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

How do neural networks see depth in single images?

摘要

深度神经网络在单幅图像深度估计方面取得了突破性进展。最近的工作通常集中在深度图的准确性上，在深度图中，对公开可用的测试集（如KITTI vision基准）的评估通常是本文的主要结果。虽然这样的评估显示了神经网络对深度的估计有多好，但并不能说明它们是如何做到这一点的。据我们所知，目前还没有工作分析这些网络所学到的东西。在这项工作中，我们采取戈达尔等人的单深度网络。并研究它利用什么视觉线索进行深度估计。我们发现网络忽略了已知障碍物的明显大小，而忽略了它们在图像中的垂直位置。使用垂直位置需要知道摄像机的姿态；但是我们发现，单深度只对摄像机俯仰和侧倾的变化进行部分校正，并且这些影响到对障碍物的估计深度。我们进一步证明，MonoDepth使用垂直图像位置可以估计到任意障碍物的距离，甚至是那些没有出现在训练集中的障碍物，但是它需要在物体的地面接触点有一个很强的边缘。在未来的工作中，我们将研究这些观测值是否也适用于其他神经网络的单目深度估计。

贡献

方法

在这里插入图片描述

在上面这个图中，对实际场景做了一些简化。所有的大写字母代表的都是在3D世界中的实际坐标，小写字母代表的都是在相机成像平面上的像素坐标。f为相机的实际焦距，假设通过标定已知。

那么我们其实可以在图中找到两个和Z相关的相似三角形来恢复实际尺度：

第一个是h/H = f/Z，整理下可得到Z=Hf/h。

从上面公式可知，我们需要知道实际世界中的车宽（或车高），然后通过物体在图像中的像素高度即可换算出来实际物体的距离。直观上来理解，物体应该是近大远小的。

第二个是y/Y = f/Z，同理可得Z=Yf/y。

深度网络中融入H

那这些CNN深度估计的方法是靠什么样的线索来估计的呢？文中第一部分便是研究这个问题。作者使用了一个假的车通过变换大小和位置贴在一张真实的图片中来验证各个猜想。
在这种方法中，我们需要知道的是相机距离地面的安装高度以及在图像中车轮与地面接触点的纵坐标。直观上理解，如果我们在一条平直的路上，那么离我们越近的物体它的纵坐标应该越靠图像下方，越远的物体越靠图像上方。
在这里插入图片描述