图像理解(第3版) 第1章学习记录

之前在学那本Multiple View Geometry,看到有一些朋友的关注,我在这里表示感谢,这也是我继续记录自己学习情况的动力之一。但就实际而言那本书十分难啃,而且我觉得初学阶段看的话效用并不大,这导致这个入门过程的效率很低。或许我是有些焦躁但是就我个人的情况而言只能先暂缓那本书的学习了。我的导师让我先学习章毓晋老师的《图像工程》系列书籍。我个人学习过图像低层处理的课程,所以这次为了更快地入门SLAM我选择直接学习该系列的下册《图像理解》,这个看完我会再考虑中册的《图像分析》。之后的学习记录我也不会面面俱到,主要记录下我觉得重要的(譬如会跳过繁琐的工程意义不大的理论概念),希望看到的朋友们理解。另外文字资料、图片等都来自《图像工程(第3版)》特此声明。还是那句话,我的笔记顶多做一个参考,如果有兴趣的话大家还是去看原书。

 

啰嗦完了那就开始挖新坑吧!


《图像理解》这本书涉及高层图像理解的基本原理和技术,包括对3D客观场景信息的获取和表达、景物重建、场景解释以及完成这些工作所需控制策略等。

绪论这一章有四个部分:图像工程的发展、图像理解及相关学科、图像理解理论框架、内容框架和特点。

 

1.1图像工程的发展

首先我们得清楚我们的研究对象“图像”:图像是用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼 并进而产生视知觉的实体。而图像技术是各种图像加工技术的总称,图像工程则是一个对各种图象技术进行综合集成的研究和应用的整体框架。我觉得在这一节我们的任务就是理解图像工程的整体框架。

先是图像工程三层次的框图(对应章老师图像工程系列的三本书)。

这张图我们主要明白高层是指高的抽象程度即可。举个例子:一张图电脑读进去就是一个个像素拼成的矩阵,低层的图像处理都是对于这些像素的操作;到中层之后我们的处理“格局”会大一些,针对目标可能有例如图像分割等操作;最高层的则是让电脑像我们人一样能明白一幅图的含义。这最终目标“图像的含义”可能就是几个字的表达(数据量很小),但其中包含的可以说是“人工智能”,所以这是一个相当高的目标(因为是在提取图片精华)。

然后我们理解一下下图图像工程的整体框架。

虚线框住的是前面说的图像工程三大部分,它们是基本模块,用各种技术帮人们从场景获得不同层次的信息。低层处理主要改善图像的视觉效果或者在保持视觉效果的基础上减小数据量(结果主要给用户看)。中层分析主要对感兴趣目标进行检测、提取和测量(结果主要提供描述图像目标特点和性质的数据)。高层理解主要了解把握图像内容并且解释原来的客观场景(结果提供客观世界信息,指导和规划行动)。这三层用到的技术包括人工智能、神经网络、遗传算法、模糊逻辑、图像代数等等。

同时为了完成一项工作我们需要采取合适的策略控制我们的各种操作。

(本节最后介绍了一些图像工程的系列综述,这里略过)

 

1.2图像理解及相关学科

1.2.1 图象理解

图像理解是图像工程的高层。在图象分析的基础上,结合人工智能和认知理论,进一步研究图象中各目标的性质和它们之间的相互联系,并理解图象内容的含义以及解释原来的客观场景,从而指导和规划行动。简单来说,图像理解是在一定程度上以客观世界为中心,借助知识经验把握原本的客观世界。

限于目前计算机系统的能力和图象理解技术的水平,“系统”完成较低层的工作,而人需要接着系统完成剩下的较高层的工作。所以说图像理解是目前主要的研究发展瓶颈。

1.2.2 计算机视觉

我们很多研究都是有些仿生的想法,所以要先了解人类视觉。人类视觉过程:一个复杂的从感觉到知觉的过程。

  • 感觉:感受到的是3-D世界之2-D投影得到的图象
  • 知觉:由2-D图象认知3-D世界内容和含义

计算机视觉是指用计算机实现以上人的视觉功能。其中心问题是:从单目或夺目的、移动或静止的观察者获取到的一个运动或静止的目标或场景的一幅或序列图像中,理解目标场景以及其3D性质(感觉就是SLAM的关键)。

主要两种方法:仿生和工程。实际应用的都是工程方法,我们不去在意人类视觉系统的内部构造而是仅考虑输入输出,采用任何可行手段实现功能(黑匣子)。另外工程的实现方法也有两种:自底向上重建(从图像重构3D形状),自上向下识别(基于先验知识构建模型)。

最后再说一下图像理解和计算机视觉的关系。计算机视觉更强调用计算机实现人的视觉功能,虽然目前研究内容主要强调其与图像理解的结合,但是实际上要用到三个层次的多种技术。这本书中不会去可以区分这两个概念。

1.2.3 其他相关学科

机器视觉:计算机视觉注重图像工程的高层,而机器视觉更关注图像获取、系统构造和算法实现。

模式识别:图像即是一种模式,识别是指从客观事实中自动建立符号描述或进行逻辑推理。模式识别就是对客观物体或者过程进行分类、描述的学科。图像理解中要用到模式识别的相关知识我认为是不需要多做解释的。

人工智能:指由人类用计算机模拟、执行或再生某些与人类智能有关功能的能力和技术。视觉功能是人类智能的一种体现,因此图像理解、计算机视觉和人工智能息息相关。

计算机图形学:其被称为计算机视觉的“逆问题”,因为视觉从2D图像提取3D信息,而图形学使用3D模型来生成2D场景。(大多时候和图像分析联系更多,用于可视化等)

1.2.4 图像理解应用领域

这里就简单列举一下应用领域:工业视觉 、人机交互、视觉导航、虚拟现实、图像自动解释等等。

 

1.3 图像理解理论框架

这一节主要是比较宏观的方法论,只简单写一些要点吧。

1.3.1 马尔视觉计算理论

马尔于1982年提出视觉计算理论,勾画了一个理解视觉信息的框架。他的理论指出:要先理解视觉目的再去理解其中细节(个人感觉这句话能应用于各个方面)。其理论的要点如下:

  • 视觉是一个复杂的信息加工过程。

要理解这个复杂过程首先要解决的问题是:如何表达并且加工视觉信息。

  • 视觉信息加工三要素:计算理论、算法实现、硬件实现。

①计算理论首先要求视觉问题是可以用计算机计算的(对一问题能在给定输入和有限步内给出输出),然后研究计算的概念以及目的、提出使问题可计算的约束条件;

②算法实现首先要选取一种对加工对象实体的合适表达(输入输出),然后确定响应算法;

③硬件实现通常适应更高的实时性要求,注意不同的硬件一般会有各自相应的算法。

  • 视觉信息的三级内部表达。

①基素表达(primal sketch)

一种2-D表达,它是图象特征的集合,描述了物体上属性发生变化的轮廓部分(类似于人观察时往往先注意到变化剧烈的部分,可以简单理解为“轮廓”)。需要注意的是只用基素表达不能保证得到对场景的唯一解释,例如我们对下图最左边的图形可以有右边的多种理解。

②2.5D表达(2.5-D sketch)

根据一定的采样密度把要表达的目标按照正交投影的原则分解成很多面元,每个面元有一根法线向量表示其取向,构成2.5D图(针图)。它是一种本征图像(同时表达部分物体轮廓信息和以观察者为中心的物体表面取向信息)。下图是一个例子。

③3D表达(3-D representation)

是以物体为中心(即也包括了物体不可见部分)的表达形式 ,在以物体为中心的坐标系中描述3-D物体的形状及其空间组织 。之后在第4章我们会学到一些3D表达的方式。

 

以上视觉信息的三级内部表达是一个递进的过程,可以如下所示逐步进行。

 

各个层次的表达方式我们可以总结如下。

  • 视觉信息的处理按照功能模块的形式组织。

模块化地组织形式有着理论和实验的支持,同时也是对于人类视觉系统的仿生(各模块获取一定的本征视觉信息最终结合)。

  • 计算理论形式化表示必须考虑约束条件。

一个“适定问题”其解满足:①存在的; ②唯一的;③连续地依赖于初始数据。

我们应当明白实际图像采集等过程中原始信息会发生变化:2D图像丢失深度信息,不同视角信息不同,物体遮挡会丢失信息,实际场景中大量复杂因素被综合成了单一的图像像素值,成像等过程会引入畸变和噪声……

由于以上信息变化的原因,视觉问题作为光学成像过程的逆问题是不适定(欠定、病态)的,基本不可能求解。实际解决视觉问题要根据客观世界的一般特性找出约束条件形成精密假设从而解决适定问题。

1.3.2 对马尔理论框架的改进

马尔视觉计算理论框架(前面讲的三级表达)的不足:

①框架中输入是被动的

②框架中加工目的不变,总是恢复场景中物体的位置和形状等

③框架未足够重视高层知识的指导作用

④整个框架中信息加工过程基本自下而上单向流动,没有反馈

相应改进之后的框架如下。

改进后框架增加了图像获取模块、根据目的进行加工过程的决策、应用高层知识指导加工、增加反馈控制。

(本章后边一些内容对于工程的意义不大,如果有同学对一些理论感兴趣可以自己看书)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值