How Do Neural Networks See Depth in Single Images?神经网络如何看到单张图像的深度?

论文来源——仅学习分享

同步资源分享

神经网络为了障碍物在图像中的垂直位置忽略其表征大小;网络只能部分识别相机俯仰和横摇角度的变化;这些变化会干扰对障碍物的估计距离。

垂直距离需要相机的位姿,图像中的垂直位置,进而估计任意障碍物的深度。

整个研究以4个现有网络进行探究:网络中使用了哪些深度线索?

涉及:垂直位置、相机位姿、相机的俯仰和横摇角度

单眼相机深度估计先前的optical flow、SLAM、SFM(以几何的角度看待深度估计问题)

单张图像没有极线几何但是有图像线索,如纹理梯度、已知物体的表征大小,但用的少

硬件upup 机器学习技术upup-尤其是CNN,可以学习图像线索啦!

探究网络学习了什么的重要性:

1,知道可以保证正确的行为而不需要评价
2,了解可以提供对培训的洞察——额外的指导
3,可以为转移到其他方面提供线索

研究使用的4种网络

探索高级行为:专注于自动驾驶场景中对汽车和其他障碍物的距离估计

深度估计是如何工作的?

特征可视化和属性

  • 由一个神经元/一张特征图/一整个层级激励的损失函数→优化输入的图像

并行的工作

  • 一种属性分析,能够找到对生成的深度图贡献最大的像素,提供对cnn底层工作的深入了解。

本文的工作 

  • 没有优化输入的图像,但是可以修改或干扰图像,将神经网络看作一个黑盒子,根据深度图的呈现进行分析。

罗列障碍物的距离估计相关属性,图像中位置、遮挡、纹理密度、线性透视、物体视尺寸、阴影、光照、聚焦模糊、空中透视,结合数据集并进一步分析,进行筛选。

Epstein指出,感知距离不仅取决于视野中的垂直位置,还取决于背景。

Ooi等人表明,在真实世界的实验中,人类使用的是相对于“眼睛水平”的角偏斜。

物体的视尺寸影响它们的估计距离。

相关数学关系,

需进一步了解

Yaw, Pitch, Roll | Trek View

4个坐标系:世界坐标系、相机坐标系、图像坐标系、像素坐标系 

实验设置:测试图像

对象(主要是汽车)是从KITTI的场景流数据集的图像中裁剪出来的。
每个对象都被标记为它相对于相机的位置和它裁剪出来的图像中的位置
每个图像都标有可以插入障碍物的位置

发现:

  1. 长度很可能取决于物体的表观大小,而距离可能不是。
  2. 神经网络主要依赖于物体的垂直位置,而不是它们的表面大小,尽管当大小信息被去除时,会观察到一些行为上的变化。

相机位姿:假设固定恒定or 估计

Exp1:真实和估计的水平线,无论是完全跟踪或根本没有,回归系数为0.60,这表明它的作用介于这两个极端之间。
Exp2:排除任何潜在的问题,这个实验评估了视界水平的变化在深度估计中的反映程度,而不是它的绝对位置。所有的网络都能检测到摄像机俯仰的变化,但所有网络都低估了视界水平的变化。由于网络使用障碍物的垂直位置来估计深度,预计这种低估会影响估计的距离。
估计的差异确实受到摄像机倾斜的影响。网络观察的是物体的垂直图像位置,而不是它们到地平线的距离,因为后者不改变时,图像裁剪。

相机横摇角

  • 与俯仰角类似,相机的横摇角影响对障碍物的深度估计。所有的网络都能够检测相机的滚动角度,但这个角度被低估了。

障碍识别

  • 为了正确估计障碍物的深度,神经网络应该能够:
    1)找到障碍物的地面接触点,以此来估计障碍物的距离;
    2)找到障碍物的轮廓,填充深度图中相应的区域。
    该网络所依赖的特征适用于汽车,但不适用于插入到测试图像中的其他物体。

颜色和纹理

  • 为了研究颜色的影响,我们创建了两个新的测试集:其中一个测试集将图像转换为灰度以去除所有颜色信息。其中,色相和饱和度通道被替换(被KITTI的语义rgb数据集替换,以进一步干扰颜色)
  • 为了研究纹理的影响,创建了两个新的测试集:
    一个集合,在这个集合中,所有的对象都被替换为一个平面颜色,这个颜色是那个对象类的平均值去掉所有的纹理但保持颜色不变和semantic_rgb集合本身,在这个集合中对象被不现实的平面颜色替换
  • 障碍物的确切颜色并不会强烈影响深度估计。
    但是当纹理被删除(类平均颜色和语义rgb)时,性能会显著下降。
    物体的确切颜色并不重要,而像相邻区域或物体内部明暗区域的对比的特征更重要。

形状和明暗对比度

物体不需要熟悉的形状或纹理就能被识别。这个网络主要对物体的轮廓敏感,然后“填充”其他部分。为了成功探测,底边需要既厚又暗。一个白色的边缘不能导致成功的检测,尽管有一个类似的对比路面。

一个完全黑色的边缘导致一个更小的距离误差比实际纹理使用。这表明,网络主要是在寻找深色,而不是对比或可识别的纹理。

结论:

网络的深度估计主要依赖于物体的垂直距离,相机位姿并不能完全解释深度估计。当检测没有出现在训练集中的目标,但这种检测并不总是可靠的,并依赖于诸如目标下方阴影的存在等因素。

  • 数据增强、固有属性

未来工作

当垂直图像的位置不再可靠时,网络是否可以学习使用不同的深度线索。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值