对于计算机视觉的一些思考

  rel="File-List" href="file:///C:%5CDOCUME%7E1%5Cdaviddai%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_filelist.xml">

           看最新的文章,可以紧跟研究的热点;看经典的论文,可以理清研究的思路和方向,为什么这样,为什么不同的人有不同的观点,他们研究分析问题的出发点是什么?我们的目标是什么,要解决什么样的问题,如何解决,可能的模型是什么。建立模型,求解模型,得到结果,理论分析。

           想想我研究的方向,目的是什么:从图像、视频中获得对于三维世界的认知,理解三维世界。也就是说要从海量、大量图像中让机器实现自动的认知、理解。到这里有两个关键问题出现了,一个是海量和大量图像,一个是自动的处理,而在处理的输入上我们希望的是任意的图像和视频,那么对于其就不应该有过多的要求,任意,正如我们人类,从大量的图像中认知世界。图像之间的变化自然是任意的,从本质上将都是利用相机对于真实三维世界的观察、采样,相机系统进行的模型是投影变换,是透视相机模型,实现了从三维信息到二维图像的映射,每个图像都是部分观察,成像的过程不仅有位置信息的变化过程还有颜色的变换,颜色信息是我们人类认知世界的重要因素,当然还有纹理,经过这样的系统,我们获得大量观察,我们的目的是希望计算机能够像我们人类一样,将这些图像进行自动的组织、处理,使得我们获得全景,获得三维模型,获得合成视角,可以注解图像,可以定位,可以测量,可以对于三维模型进行编辑,可以复原现场,可以获得场景的时间、空间关系,可以进行变化检测,可以识别场景,可以计数,可以检索,可以自动漫游等等。

           针对上面提到的三个问题:

1.  数据量大,对于图像源,互联网的发展为我们提供了大量场景图像,通过GoogleFlickr语义检索可以获得大量图像,当然作为关键字检索的结果,是存在错误情形的,这些图像千差万别,拍摄条件(位置、角度、时间)差异很大;另一种数据源是视频数据,这个数据量也很大,几个小时的拍摄会产生25×3600×n 几万到几十万的图像,当然视频具有视频的特点,连续性好,即可以在视频数据中采样处理,而且数据获取上具有内参数等等的连续性,因此其处理似乎相对容易,当然尚没有这样的完整系统,其中的问题值得继续研究,其最主要的特点是人为控制,但是将来等我们针对用户上传的视频重建三维世界的时候,数据量将迅速增加。

2.  自动化处理是难点,我们希望系统能够直接根据输入的图像自动重建,但是在自动实现方面还有很大的障碍,原因在图像或者视频数据获取上的任意性,而且退化情形也是难点,重复的结构也会造成处理的困难;

3.  处理的效率:Snavely2006年的处理对于几百上千幅图像的处理需要几天的时间,今年来也提出了一些加速算法,但是效率仍是核心,距离实时算法差距遥远,现在很多倾向于使用GPU,当然这样的应用肯定是专业型的。

4.  渐增式的重建,从少量的图像出发每增加图像均会改善结构,进行微调,但是问题是这样的结构速度如何?

          

           从上面的分析可以看出,这样的系统其实就是在模拟人类对于世界的认知过程,计算机视觉说到底就是让计算机(机器人)通过图像认知世界。我感觉在认知方面主要有两个方面,即获得几何信息和获得类别属性信息。对于几何信息的认知基本思路就是单目、双目、多目,利用对应信息恢复和重建观察的世界。而类别属性信息的认知现在主流的思路就是按照模式识别的思路,首先获得局部信息得到描述符,然后设计各种分类器进行训练学习。现在来看几何这里做的相对成熟,最近的热点在识别方面。几何的思路虽说成熟完整,但是尚有大量的问题没有得到完美解决,展开来讲,主流的思路是首先提取局部描述符,进行匹配建立对应关系,追踪Track,对于摄像机进行定标,恢复三维结构。但是单单在局部描述方面就仍是Open的问题,HarrisCannySIFT20多年的发展,到SIFT的提出很大程度上成为匹配的Gold Standard算法,但是误匹配仍然存在;在得到匹配恢复结构的SfM上,基本已经形成标准流程,对应-----》基础矩阵、本质矩阵------》分解得到Relative Pose------Global Registration-----Reconstruction。每一部分都有多种算法性能不同,基础矩阵的估计,线性的,非线性的,8点,7点,6点,5点基本完整了,Ransac也已经成为一种基本方法,它的应用使得Minimal问题的研究得到重视,从two view five points, three views four points到有无定标等多个Minimal问题,目的均在于增强稳定性,想尽办法去除噪声的影响,当然Ransac方法的效果在有些极端和退化情形下的能力还需要增进,看来噪声是信号处理永恒不变的话题。从本质矩阵得到Relative pose方法完全是确定的。下一阶段的问题是如何根据Relative得到Global,方法主要有两个类别,即Factorizitation和分步求解,分解的方法也是一大类其核心在于矩阵逼近,也就是说如何从观察数据中分解出满足秩或者正交性等要求的矩阵,其缺点在于深度信息的处理和对于像素可见性的要求上面;而基于分步求解的思路在于通过几步或者迭代将全局的摄像机位置信息回复,方法包括了直接求解,首先求解旋转再求解平移的方法,一般转化为线性方程组或者最小二乘问题,当然现在由于L-Infinity的应用,其在这方面也得到应用。最后在得到摄像机位姿和内参数后,恢复了初步的摄像机投影矩阵,下面的问题是利用相机参数恢复三维点,最后进行优化,在优化这里标准的方法现在是Bundle Adjustment,但是其问题在效率如何,对于初始值稳定性怎么样,是不是会出现局部极小,我现在尚没有Bundle Adjustment的评价和衡量,但是貌似其处理速度还是蛮快的。另外的思路是引入L-Infinity进行优化,其好处在于可以找到全局最小,并且是对欧氏距离的好的初始值,问题在于其受噪声影响太大,从而使得噪声数据的消除再次成为话题。从上面的描述看出几何方面的两个关键问题:噪声和优化。优化是一个恒久的话题,因为我们总是期望着最好,最小,最大等等,为了优化,我们首先需要得到目标,即衡量什么,然后建立其数学模型,确定参数和其范围,下面的思路似乎是寻找对应的求解模型,关键的问题在于避免局部极小。现在视觉中的优化应用凸集优化的方法比较多,Convex Optimization,这一优化包括了最小二乘、线性规划、Second Order Cone Programming等。L-Infinity主要利用的SOCP的方法,为了得到最大值的上界,基本的方法是采用二分查找的办法,在每一个区间内判断SOCP问题是否有解,最近也有所改进即对于区间采取梯度下降等等加速策略,相对而言L-Infinity的速度还是问题啊。最近CV方面在优化方面出现了不少文章,主要的方法还是集中在Convex Programming方面,研究怎么样应用范数的特点加速优化过程保证最优。而在匹配的MismatchMissing Match方面,我最近也看了一些文章,基本的观点在于利用Multi-View中数据的特点,通过假设检验的思路去除外点,包括匹配三角,匹配的传播,基本的视点不变性特征,利用概率或者贝叶斯的方法,绝对消除外点是不可能的,而且在消除外点的时候成本是很大的,即我们也去除了大量的内点,为进一步的稠密重建造成了问题。在这一方面还是可以有所作为的。另外的问题是退化情形,即大量匹配点共面,图像中存在重复或者相似的物体,这些因素的存在是自动重建的障碍。

           以上是一些基本的思考,也可以所示对于最近论文阅读情况的一个简要说明。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值