相对深度与绝对深度,深度图与真实距离

刚开始看单目深度估计,好多概念都不清楚,下面是我的理解,有不对之处希望大佬指出。
首先是相对深度和绝对深度的概念。绝对深度就是利用激光雷达等设备获取的相机与物体之间的距离,比如KITTI数据集就是利用360度雷达设备获取稀疏的深度图,图1就是雷达获得的原始深度图,很黑,什么都看不清,图2是KITTI数据集提供的标注过的深度图,好一点了,但依然很稀疏,所以很多论文在使用的时候都会对它进行插值(插值方法参考:https://blog.csdn.net/weixin_41423872/article/details/114578403
在这里插入图片描述图1
在这里插入图片描述图2

用绝对深度作为训练数据得到的模型是可以预测绝对深度的,David E等人一系列的算法都是这一类型的。

但是由于室外场景的真实深度往往很难获取,有人就想到能不能由人工来标注深度估计的数据集,答案是肯定的。但是人工不能准确地标注出物体距摄像机多少米,而只能标注出哪些点离摄像机更近,哪些点离摄像机更远,这样标注出来的深度图就是相对深度图。使用相对深度图中作为训练数据训练出来的模型也就只能预测相对深度(比如这篇论文:Learning Ordinal Relationships for Mid-Level Vision
),其与真实深度之间差了一个基准值,这个值我们是不知道的。因此这种类型的算法在自动驾驶领域的应用是十分受限的。

好了,搞清楚了相对深度图和绝对深度图,再思考一个问题,雷达获得的结果应该是一个个以米为单位的距离,为什么数据集中提供的是黑乎乎的一张深度图,它和真实距离之间的关系是什么?
以KITTI数据集为例,官网提供了这样一个文件:
在这里插入图片描述
把它下载下来,readme中有这么一段话:
在这里插入图片描述
意思就是,深度图是以uint16的格式存储的,要从深度图中读取真实距离,除以256之后以米为单位就可以了,当然,深度图中为0的点,不是说距离为零,而是这些点的距离没有获取到。下载的文件中有一个python脚本可以帮忙完成这个转化工作。

也就是说,我们以KITTI绝对深度图为训练数据得到的模型,给他输入张单目图片,它可以输出一张真实深度图,给它除以256就得到了真实的距离值。要完成图3这种效果的目标测距功能,只需要将目标框内所有像素点的真实距离求均值就可以了。

在这里插入图片描述
图3

获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一.场景中各点相对于摄象机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离.机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类.被动测距传感是视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息.最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图.与此方法相类似的另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算.主动测距传感是视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量.主动测距传感系统也称为测距成象系统(Rangefinder).雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统.因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。另外,我们还接触过两个概念:主动视觉和被动视觉。主动视觉是一种理论框架,与主动测距传感完全是两回事。主动视觉主要是研究通过主动地控制摄象机位置、方向、焦距、缩放、光圈、聚散度等参数,或广义地说,通过视觉和行为的结合来获得稳定的、实时的感知。我们将在最后一节介绍主动视觉。
评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值