简而言之,立体相机配备了两个或更多的图像传感器来模拟人类的双目视觉,从而使其具有感知深度的能力。了解深度感知技术,它们的分类,以及更多关于立体视觉的信息。
人类双目视觉
人的双眼视觉通过立体视差(Stereo disparity)来感知深度,立体视差是指左右眼因水平分离而看到的物体在图像位置上的差异。大脑利用这种双眼视差从二维视网膜图像中提取深度信息,这就是所谓的立体视觉(stereopsis)。类似地,一些立体相机,如Tara和TaraXL,试图模仿人类视觉的这种立体视觉技术来感知深度。深度感知是通过一种叫做三角测量的几何方法完成的。
相机的立体视差
相机中的立体视差可以通过使用从不同位置拍摄的两张2D图像来发现,图像之间的相关性可以用来创建深度图像。然而,要找到相关性,两个图像需要有足够的细节和纹理或非均匀性。因此,立体视觉适用于大视野和户外使用的应用。为了获得更好的效果,人们可能需要通过用结构光照亮场景来添加这些细节。
深度感知技术
捕获第三维度可以通过许多不同的方式完成,每种可用的机器视觉技术都有自己的优点和缺点。三维成像可以分为两大类:被动和主动,并可以进一步细分为特定的技术。
主要的被动技术有:
· 焦点深度(Depth of focus)
· 光场(Light field)
· 立体(Stereo)
主要的主动技术有:
· 光飞行时间(Time-of-flight)
· 结构光(Structured light)
· 干涉法(Interferometry)
· 立体(Stereo)
立体深度感知的分类
1.被动立体( Passive Stereo)
被动立体系统依赖于环境中可用的光,而不使用任何外部光。
被动立体适合光线充足的纹理区域,在阳光下工作良好。
优势:
· 在阳光下表现良好
· 价格
劣势:
· 在弱光下表现一般
· 在非纹理场景中表现一般
2.主动立体(Active Stereo)
主动立体视觉是主动利用激光或结构光等光来简化立体匹配问题的一种立体视觉形式。
主动立体在缺乏光线或纹理的区域是有用的。红外线投影仪或其他光源将用纹理照亮场景,从而切断对外部光源的依赖。但是除了积极的一面,也有一些消极的一面,比如主动式立体技术在阳光直射和使用相同外部光源技术的高干扰区域会失去效果。
优势:
· 在弱光下表现良好。
· 在无纹理的室内场景中表现良好。
· 可以作为飞行时间和立体三角测量的混合深度感知技术。
劣势:
· 在日光下,与被动立体相同。
· 在远距离上,它与被动立体相同。
· 红外投影仪增加了成本。
是什么决定了立体视觉的深度范围?
立体视觉相机使用三角测量来感知深度。确定深度距离的属性如下所示。
· 基线
· 分辨率
· 焦距
基线
两个摄像头之间的距离被称为基线,对于人眼来说,它大约是50-75毫米(瞳孔间距),这取决于每个人。
realsenseD435的基线为50毫米,与人类的平均基线相似。基线与深度成正比。所以,基线越长,我们可以覆盖的深度越长,精度越高。
分辨率
两个相机的分辨率与深度成正比。
要搜索的像素数越多,视差级别的数量就越高。因此,在更高的分辨率下,视差水平会很高,但计算负载也会更高。
焦距
镜头的焦距与景深成正比。
焦距越小,我们看得越远,但视野会缩小。使用较大的焦距,我们可以看到近景深的高视场。
远距离深度感知
理论上,使用立体相机,我们可以仅用60mm的基线覆盖无限深度,但误差率会随着深度的增加而呈二次方增加。如上所述,如果基线随着距离的增加提高了深度精度,那么你可能会问,“人类的眼睛如何仅凭50-75毫米的基线感知如此远的距离呢?”答案是人类的分辨率非常高(大约576兆像素),这使得眼睛能够感知更大的深度。但在今天的技术中,这样的像素数是不可能的,即使我们有了能够输出576MP图像的相机,我们仍然没有处理那么大尺寸图像的能力。因此,分辨率限制了我们的深度范围,但我们可以通过增加基线来补偿这一点,但反过来它又减少了最近可感知的深度。在更高的分辨率和基线下,立体对应问题被放大,计算负载增加。这在一定程度上可以通过使用GPU来解决。