硬核3-D视觉 - 三维视觉简介

人类渴望知识。我们可以从人类对于感知喜爱看出这一点来。即使感知有时候并不一定有什么直接功利的效用,我们还是发自内心的喜欢它们 —— 特别是我们的视觉。对于人来说,能看见比什么都重要,除了视觉能让我们行动这一点之外,即使我们坐在那动也不动,我们也需要看见。为什么视觉相比其他感知能力如此重要?因为视觉告诉我们关于物体的知识以及如何区分它们的不同。

— 亚里士多德

1.1 由2D图像到3D模型

对于灵长类动物而言,视觉非常重要。

为什么让计算机“看见”是一件困难的事情?

首先,让计算机看见并不简简单单给它接上一个相机就结束了,这一点现在早就是一件容易的事情,摄像头可以将图像一帧一帧的传送给计算机,类似人眼视网膜做的事情。

一张图像,仅仅是一大堆像素点,每个像素点都有一个正整数值表示。那么问题来了,我们如何“解释”这些像素值呢?我们如何知道这是一个苹果还是梨或是一棵树?对于人来说,改变视角或者光照环境,我们都可以大多数情况下非常轻易的辨别我们眼前的物体。

广义的讲,视觉系统就是一组设备,这组设备将收集到的光照信息转换成有关场景的空间和材料性质的信息。

在这组设备当中,我们可能需要能够感知光照的设备,比如相机或是视网膜,同时我们还要有计算设备,也就是计算机或者我们的大脑,计算设备帮助我们从原始感知信息中抽取抽象信息。

事实上,视觉并不是一件容易的任务,在灵长类动物的大脑中,几乎多大一半的大脑皮层都参与了视觉信息的处理[Felleman and van Essen, 1991]。

为什么计算机视觉很难?

一旦我们知道视觉不仅仅是将图像从相机传到计算机,我们就可以进一步思考是哪些因素影响了视觉测量这一过程。

显然,图像之中的像素依赖于相机前的物体,如果我们改变物体形状,我们也能看到像素值的改变。因此,图像像素依赖于物体的几何构造。但是,像素也同样依赖光度(photometry),它受到光照条件和物体表面物理纹理的影响。并且,如果物体是运动的,它们反应在图像中的像素也会发生变化。

大部分情况下,我们不知道对象的形状,不知道它的材料是什么,不知道它的运动规律。我们的目标是从图像当中,抽取出一些有关世界的表示(representation)。

真实世界的复杂性几乎无限的高于我们通过相机获取的图像的复杂性。因此,在这个意义上,视觉几乎是不可能的任务。我们没有办法直接通过图像还原真实环境,我们只能通过图像建立一个世界的最佳模型,或者叫内部表示(internal representation)。

关于建模,我们需要一些假设帮助我们简化问题,一些对于环境的位置属性的猜测,以便推知其他信息。这些并没有一个通用的正确或者错误准则,建模本身就是工程的艺术,它依赖于你所面对的任务是什么。举个例子,采用什么环境模型取决于你是否想在环境中移动,还是说你是否希望对其进行可视化,又或者说你是否想要识别出物体和材料是什么。在每一个具体的应用场景中,我们都会关心一些性质而对其他一些予以忽略。比如,如果我们打算在环境当中导航,我们更加关心障碍物的形状和运动,而对它们的组成材料和光照信息不是很关心。

为什么要研究计算机视觉?

你可以想象一下一整天你都无法用眼睛看,你肯定几乎什么都做不了。人工视觉有可能能够使人类免于危险、单调乏味、无聊(例如长时间开车)、水下探测、发现一栋建筑物当中的闯入者,事实上人工视觉还可以被用于放大和增强人类固有能力,恢复人类失去的能力。

本书旨在帮助读者建立起3D视觉所需的几何原理,为在机器视觉领域进行理论和实践探索打下坚实的基础。

本书的内容范围

计算机视觉无疑是非常重要的,但是本书中我们不打算对计算机视觉的所有领域进行探讨,本书专注于多视图的几何问题。

本书不探讨单个图像的感知问题,我们专注于多个图像之间的运动线索的研究。

本书主要研究的场景是那些包含若干运动刚体,且刚体的光度性质良好。什么叫做光度性质良好,后面第3章和第4章会加以说明,我们现在其实就可以说非透明或者反射性质的材料就是光度性质良好。

给定一组2D图像,本书试图对以下问题给出答案:(1)我们如何去预测对象的3维形状,并且可以预测到何种程度?(2)我们如何恢复物体相对于相机的运动?(3)我们如何恢复相机的几何模型?

传统意义上,这些问题都是多视图几何的问题。本书介绍的算法就是用于解决这些问题的,预测3D结构,运动以及相机标定。在这个意义上,本书讲述的内容就是从2D图像到3D场景几何模型。

1.2 数学方法

从2D图像推理出3D信息的问题数学上称为逆问题。这些问题往往是病态的,除非有额外的假设,否则很难完全解决。

然而,一般来说,选择一个正确的数学模型是不那么容易的,简单的表达可以通过几何元素,如点,线,曲线,曲面和体积完成。这些几何元素都是构建在欧式空间中,所以对于欧式几何的研究和群变换的研究将在本书中得到展现。本书还将研究一个经典的主题——透视投影,并将用理想模型对其进行描述。同时,透视投影和矩阵群的结合将是多视图几何的核心主题,多视图几何研究的是运动恢复结构的几何原理。

简言之,与几何特征(点、线或平面)相关联的多视图矩阵正是在特征的单个二维图像中丢失但在多个图像中能够得到编码的三维信息。因此,秩条件施加了所有图像必须对应于相同三维特征的关联关系。如果三维空间中存在多个特征,且这些特征之间存在关联关系(如交集),则秩条件也可以统一考虑这些特征。这个简单的理论本质上使我们能够对多幅图像进行全局几何分析,并系统地描述退化的构型,而不必将图像序列分成成对或三个视图。这样一个统一的全局处理允许我们利用所有的几何约束,这些约束同时控制所有图像中的所有特征和所有关联关系,以便从多个视图中一致地恢复运动和结构(第9章)。在第十章中,我们展示了这个理论如何自然地将透视投影与三维空间的性质联系起来,这些性质在对称群下是不变的,这使得我们可以利用许多人造物体和自然物体的对称性质。

1.3 历史

对图像形成(如针孔成像现象)的初步理解存在于世界各地的古代文明中。然而,有关投影(以及刚体运动)概念的第一个数学公式是公元前4世纪亚历山大的欧几里德提出的。布鲁内莱斯基和利昂·巴蒂斯塔·阿尔贝蒂在绘画和建筑的背景下研究了透视,阿尔贝蒂写了第一篇关于透视定律的一般性论文,在1435年,透视投影对一种“新的”非希腊式的几何学方法的发明做出了很大的贡献,法国数学家吉拉德·德萨尔格称之为投影几何学,因为他在1648年发表的著名的“透视定理”,射影几何学后来被重新发明,并在18世纪和19世纪初受到另一位法国数学家加斯帕德·蒙格的学生的欢迎。然而,这一理论后来受到了费利克斯·克莱因1872年著名的厄兰根项目的挑战,该项目基本上为现代几何学在群论方面建立了一个更加民主但统一的平台。

第一个和多视图几何直接相关的工作是德国数学家Kruppa在1913年的一篇论文。他证明了五个点的两个视图足以确定视图之间的相对变换和点的三维位置,直到有限多个解。Kruppa的证明是在传统的射影几何设定下完成的。

这本书将直接在多视图几何的原始设定基础上,使它成为一个独立的主题。因此,大多数已有的结果和算法将在我们的框架中重新制定和简化。即使是两个视图之间的经典的极线约束最终也将以不同的形式表达,使其更符合多个图像中存在的其他约束(第8章)。这种方法不仅可以用很少的开销完成在多个视图中搜索所有内在约束的任务,而且最终以一种统一的形式呈现它们,这对于几何洞察和算法开发来说是更加容易的(见第9章)。我们相信这样的调整对于发展一个理论和算法框架是必要的和适当的,该框架适用于研究具有多种特征(不同类型)、多种关联关系和多种场景假设的多幅图像。

参考文献

[1] Yi Ma, Stefano Soatto, Jana Kosecka, S. Shankar Sastry. An Invitation to 3D Vision. 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值