本板块将记录QMUL大学MSc Computer Vision 模块ECS709P-CourseWork
导师:Andrea Cavallaro
课程教材:Computer Vision Algorithms and Applications
Week1
- Lab slot as usual (with Demonstrator)
- No Class (use this slot as individual time to finish watching the first 3 lecture recordings in website until Transformations included, prior to the Lab slot)
- Read Chapter 1, 2, and Section 3.6 of Szeliski’s book prior to the Lab slot
- Read the Slides up to Transformations included
Chapter1
1.1 概述
1、人类可以轻松分辨周围的三维物体,并且对不同的物体进行归类、分析,但是对于计算机而言,希望其解释图像的能力与两岁大的孩子一般却是难以实现的。视觉为什么如此困难,部分原因是因为逆问题。在信息不足的情况下,我们试图恢复一些未知量来给出完整的解答。因此,必须求助于基于物理和基于概率的模型来消除潜在歧义。然而,视觉世界的建模就其十分的复杂性远比产生话音的声道建模更困难。
2、前向模型通常是在物理学或计算机图形学中发展而来。尤其在计算机图形学中,我们试图在做范过程,即描述我们从一幅图像或多幅图像中看到的世界,比如形状、照明和色彩分布。虽然生物可以毫不费力地完成,但是计算机视觉算法却很容易出错。其间涉及的复杂规划和算法困难程度也相当巨大。
3、计算机视觉的应用:光学字符识别(OCR)、机器检验、零售、3D模型建立(摄影测量学)、医学成像、汽车安全、匹配问题、运动捕捉、监视、指纹识别和生物测定。
4、工业视觉应用网页列出了计算机视觉许多有趣的工业应用。本课将着重学习图形变换中的拼图、曝光包围、变形、3D建模、视频匹配运动和稳定化、照片预览、人脸检测、视觉身份认证等。
5、建议“采取从手头的问题回想所适用的方法”这种被称为反向工作方式的学习方式,这是计算机视觉研究的典型工程方法。
首先,提出详细的问题定义并决定问题的约束和技术参数;
然后,试图找到已知有效的方法,实现其中的部分,评测性能并做出最终选择。
因此,在上述过程中,有实际可行的测试数据是很必要的,其包括合成的数据,可用于验证正确性并分析其噪声敏感性,也包括系统最终将要用到的类型的真实世界数据。
1.2 简史
1、20世纪70年代:开始。场景理解的早期尝试及物体即“积木世界”的边缘抽取及随后的从2D线条的拓扑结构推断其3D结构。边缘检测是活跃的研究领域。David Marr总结了那个时代对视觉工作原理的认识,介绍了其信息处理系统所表达的是哪个层次概念:计算理论(计算任务的目的是什么?该问题的已知或可以施加的约束是什么?)、表达和算法(输入、输出和中间信息是如何表达的?哪些算法可以达到期望的结果?)、硬件实现(表达和算法如何映射到实际硬件即生物视觉系统或特殊的硅片上。)
因此,图像形成和先验的约束必须与效率高的鲁棒的算法相结合。
2、20世纪80年代:研究开始更多地关注定量的图像和场景分析的更复杂的数学方法。图像金字塔广泛用于完成诸如图像混合这样的任务和由粗到精的对应搜索。尺度空间处理的概念建立起了金字塔的连续版本。三维举例数据处理继续成为这10年很活跃的研究领域。
3、20世纪90年代:在识别中使用投影不变量的研究呈现爆发性增长,演变为解决从运动到结构问题的共同努力。因子分解方法的提出能够高效地解决近似正交投影的问题,随后扩展到了透视投影的情况。最终该领域开始使用完全的全局优化方法。图像分割、光流方法、统计学习方法也随之兴起。
4、近十年来,计算机视觉领域与计算机图形学之间的交互增多,尤其是在基于图像的建模和绘制这个交叉学科领域。直接操作真实世界的影像来创建动画的想法最初是从图像变形方法开始变得显著起来。后来用于视角插值、全景图拼接和全光场绘制。显著趋势在于物体识别中基于特征方法的显现,以及追求发展更高效求解复杂全局优化问题的算法。还有一个趋势在于复杂机器学习方法在计算机视觉问题中的应用:与如今日益增多的、可获得的、巨量的数据相一致,这使得学习物体类属更为可行,不用人的精心监督。
计算机视觉涉及的步骤为:从场景的图像到结构描述。而计算机图形学则恰恰相反。
Chapter2
图像的形成过程:即在给定一组光照条件、场景几何、表面特性和摄像机光学情况下产生一副具体图像的过程。
2.1 几何基元和变化
2D和3D基元是最基本的基元,即点、线、面。
2.1.1 几何基元
几何基元构成了描述三锥形状的基本构件。例如2D点,用一对数值来表示如:
x
=
(
x
,
y
)
∈
R
2
x = (x, y)∈R^2
x=(x,y)∈R2或者表示成我们最常用的列向量形式x = [x; y]。也可以用齐次坐标表示
x
~
=
(
x
~
,
y
~
,
w
~
)
∈
P
2
\tilde {x} = (\tilde {x}, \tilde {y}, \tilde {w})∈P^2
x~=(x~,y~,w~)∈P2。
结合2D直线的概念(PDF27页),2D直线的方程可知,概念为极坐标、过原点法向量与直线l的位置关系。延展可得到3D平面方程为过原点法向量和平面垂直。
2.1.2 2D变换
2D图形的变换有平移、欧氏距离变换、相似、仿射、投影。
平移:
x
′
=
x
+
t
或
者
x
′
=
[
I
t
]
x
~
,
其
中
I
是
2
x
2
的
单
位
矩
阵
x' = x + t或者x' = [I t]\tilde{x},其中I是2x2的单位矩阵
x′=x+t或者x′=[It]x~,其中I是2x2的单位矩阵
30也