第二十周学习笔记

第二十周学习笔记

阅读《计算机视觉——算法与应用》

第七章 由运动到结构

第六章中,通过配准点集来估计摄像机姿态及其内部参数,本章处理的是对应的逆问题,即,给出图像特征的稀疏对应,来估计3D点的位置。这个过程通常涉及3D几何(结构)和摄像机姿态(运动)的同时估计,这就是通常意义下的由运动到结构。

7.1 三角测量

三角测量是根据对应图像位置的集合和已知的摄像机位置确定一个点的3D位置的问题,是6.2节中摄像机姿态估计的逆问题

7.2 二视图,由运动到结构

从图像的对应同时恢复3D结构和姿态

7.2.1 投影(为标定的)重建

利用未知关联内标定参数的图像进行3D建模

7.2.2 自标定

通过自标定方法将投影重建装换为度量重建,即,平行线重建出来之后还是平行的,正交墙面重建出来也是正交的

7.2.3 应用:视图变形

产生3D场景的一个视角到另一个视角的平滑的3D动画。

7.3 因子分解

在处理视频序列的时候,我们通常会得到扩展的特征轨迹,可从它使用一个称作“因子分解”的过程恢复出结构和运动

7.3.1 透视与投影因子分解

处理透视摄像机的方法

7.3.2 应用:稀疏3D模型提取fhfa

一旦估计出场景的多视角3D重建,就可以创建物体的带有纹理映射的3D模型,并从新的角度观测它。

7.4 光束平差法

最准确的估计结构和运动的方法是非线性最小化测量(重头影)误差,这是在摄影测绘学(和现在的计算机视觉)界中所说的光束平差法(bundle adjustment)

7.4.1 挖掘稀疏性

大规模光束平差法的复杂度很高,因此需要特定的稀疏化方法减少复杂度

7.4.2 应用:匹配运动和增强现实

估计一个视频或者电影摄像机的3D运动,以及一个3D场景的几何信息,以便把3D图形或者计算机生成的图像添加到场景中,比如在体育比赛中替换广告板的内容

7.4.3 不确定性和二义性

因为由运动到结构涉及对许多高度耦合的参数的估计,往往并不知道真值分量,所以由运动到结构算法产生的估计经常呈现出大量的不确定性

7.4.4 应用:因特网照片重建

由运动到结构最广泛的应用是使用视频序列和图像集成进行物体和场景的3D重建

7.5 限定结构和运动

利用场景中较高层的几何基元,例如直线和平面,可以提供与兴趣点有关的补充信息,还可以作为3D建模和可视化的有用构件

第八章 稠密运动估计

8.1 平移配准

在两幅图像或两个块间建立配准,最简单的方法是相对于一幅图平移另一幅。

8.1.1 分层运动估计

为了加速搜索过程,我们常常使用分层运动估计,建立一个图像金字塔,首先在最粗糙的层上搜索数量较少的离散的像素。之后,将该层的运动估计结果作为初始值来对下一层做更小范围局部的搜索。

8.1.2 基于傅里叶的配准

当搜索范围对应于更大图像的大部分区域时,分层的方法可能就没那么好用了,因为常常无法将图像过于粗化,否则图像的重要特征会被模糊掉。在这种情况下,基于傅里叶的方法更好。

8.1.3 逐次求精

为了更高的精度,可以通过给匹配插值来寻找解析的最小值。

8.2 参数化运动

很多图像配准任务,需要更复杂的运动模型,由于这些模型(如仿射模型),比单纯平移的参数更多,所以可能值范围内的全局搜索是行不通的。而逐次求精的Lucas-Kanade算法可以扩展到参数化运动模型,并和分层搜索算法结合使用。
对于参数化运动,不同于使用单个恒定平移向量,我们使用空间变化运动场或者对应图。

8.2.1 应用:视频稳定化

稳定化算法可以大大改善抖动视频的表观效果,但同事也会包含人工视觉现象。

8.2.2 学到的运动模型

学习一组应用定制的基本函数是另一种用几何变形,如仿射变换,来参数化运动场的方法。

8.3 基于样条的运动

用少量控制顶点控制的二维样条来代表运动场
应用:医学图像注册

8.4 光流

最一般(最困难)的运动估计是独立估计每个像素运动,一般称作“光流”(optical或optic flow)

8.4.1 多帧运动估计

之前的运动估计都看做两帧的问题,实际中运动估计多在视频中使用,整个图像序列都可以用来计算。

8.4.2 视频去噪

视频去噪是指去除噪声及其他缺陷,如电影和视频划痕。

8.4.3 应用:去隔行扫描

将一个奇偶行交换存储的视频转换为每帧包含所有无交错信号的视频

8.5 层次运动

很多情况下,视觉运动是由场景中少量不同深度的物体移动造成的。此时,如果将像素按合适的物体或层分组,像素运动可以更简洁地描绘。

8.5.1 应用:帧插值
8.5.2 透明层和反射

第九章 图像拼接

配准图像并将其拼接成无缝拼图的算法是计算机视觉领域最古老且应用最广泛的算法之一。图像拼接算法所生成高分辨率拼接图像可以用来产生属资产地图和卫星照片。该算法还可以内嵌在大多数数码相机里面,用来生成特宽广角的全景图。

9.1 运动模型

为了能够完成图像的注册和配准,我们需要建立将一幅图像中的像素点坐标映射到另一幅图像中数学变换关系。

9.1.1 平面透视运动

可用于图像配准的最简单的运动模型就是在2D中进行单纯平移和旋转

9.1.2 应用:白板和文档扫描

将平板扫描仪得到的多个扫描图像拼接在一起

9.1.3 旋转全景图

在全景图的拼接方法中,最典型的情况就是处理摄像机单纯的旋转运动

9.1.4 缝隙消除

由于累计误差,结果中总是存在一些缝隙或者重叠

9.1.5 应用:视频摘要和压缩

图像拼接的应用,就是能对摇动摄像机拍摄的视频进行摘要和压缩

9.1.6 圆柱面和球面坐标

在所有图像都是用同一水平线或者同一已知倾斜角的摄像机拍摄时,可以首先将图像卷绕到柱面坐标系下,再使用单纯的平移模型来匹配。当最后的全景包括完整的球面或半球面视角,而不是条带状圆柱面时,可以将图像投影到球面上。

9.2 全局配准

在大多数应用中,不只限于对一对图像进行注册,真正的目标是找到一个全局一致的配准参数集合,从而最小化所有图像对之间的注册误差。

9.2.1 光束平差法

在最小均方误差框架下对图像进行同时配准,以正确地分配误注册偏差。

9.2.3 视差消除

当最优化摄像机的全局方向和焦距之后,可能会发现图像依然没有完美对其即最后得到的拼接图在某些地方看起来仍然有写模糊或重影。
这可能是以下因素造成的

  • 未建模的径向畸变
  • 3D视差
  • 微小的场景运动
  • 大尺度的场景运动
9.2.3 认出全景图

认出全景图(recognizing panoramas)是识别哪些图像实际上是在一起的。

9.2.4 直接陪准和基于特征的配准
  • 基于特征的匹配方法
  • 基于像素级别的配准方法,收敛范围有限
9.3 合成

产生最后的拼接图像

9.3.1 合成表面的选择

选择表示最后图像的方法

9.3.2 像素选择和加权(去虚影)

要构造干净美观的全景图,涉及到决定使用哪些像素点,如何对它们进行加权或融合。

9.3.3 应用:照片蒙太奇
9.3.4 融合

在确定图像之间的缝合方式并移除那些不想要的物体之后,我们还需要进行图像的融合,以补偿曝光差异和处理其他错误配准的问题。

第十章 计算摄影学

10.1 光度学标定
10.1.1 辐射度响应函数。

建立入射光与像素值的映射

10.1.2 噪声水平估计

估计在特定摄像机设定下引入的噪声量。

10.1.3 虚影

使用广角和大光圈的镜头有个常见的问题就是图像的角落处会变暗,这个问题通常称为“虚影”。

10.1.4 光学模糊(空间响应)估计

最好需要标定的成像系统的特性是空间响应函数,它编码了光学模糊信息(用来和入射图像卷积以生成按点采样的图像)。

10.2 高动态范围成像

为了制作曝光良好的图像,可以通过以下三个步骤进行处理

  • 从配准的图像中估计出辐射响应函数
  • 通过从不同曝光度的图像中选择或混合像素来估计辐照度图(radiance map)
  • 将生成的高动态(HDR)图像色调映射回可供显示的色域
10.2.1 色调映射

计算出辐照度图后,通常需要将它显示在较低的色域范围的屏幕或者显示器上

10.2.2 应用:闪影术

高动态范围成像能够结合统一场景的不同曝光度图像,那么也可能通过结合闪光和非闪光图像来达到更好的曝光效果和色彩平衡并减少噪声。

10.3 超分辨率和模糊去除

超分辨率可以让我们生成闭普通照片空间分辨率更高、噪声更少的图像

10.3.1 彩色图像去马赛克
10.3.2 应用:彩色化

手动给“黑白”图像加入色彩

10.4 图像抠图和合成

图像抠图和合成是指将前景部分从原图中分离出来,再将其置于新背景之下的一种方法。

10.4.1 蓝屏抠图

蓝屏抠图涉及在单一颜色的背景下对演员(或物体)进行拍摄,虽然,原来人们更喜欢用亮蓝色,但现在亮绿色更常用。

10.4.2 自然图像抠图

Knockout方法

10.4.3 基于优化的抠图

通过考虑 α \alpha α值的局部关联,求取全局最优的遮罩,也可以分别估计出每个像素的不透明度及其前景颜色。

10.4.4 烟、阴影和闪抠图
10.4.5 视频抠图

移动物体的抠图会更简单,因为背景的一些信息可以透过前后帧获得。

10.5 纹理分析与合成

纹理分析与合成被广泛应用与修复小洞等类似的图像瑕疵,用由有常规照片生成非真实感的画家风格绘效果。
纹理合成问题可描述为:给定一小块:“纹理”样本,生成大片的外观相似的图像。

10.5.1 应用:用空洞填充与修图

从照片中去除物体或者瑕疵后,需要做的就是空洞填充,这称为“修图”(inpainting),是纹理合成最常见的应用之一。这种方法不但可以用来从照片中去除不想要的人或者闯入者。

10.5.2 应用:非真实感绘制

基于样例的纹理合成思想还有两个应用分别是纹理转移和图像模拟,它们都属于非真实感绘制

第十一章 立体视觉对应

立体视觉匹配是通过寻找两幅或者多幅图像间的匹配像素点,然后将它们的2D位置转化到3D深度,从而估计出场景的一个3D模型。
我们是基于左眼和右眼看到的表现差异来感知深度的。

11.1 极线几何学
11.1.1 矫正

矫正(rectify,也就是卷绕)输入图像,使得对应的水平扫描线是极线,然后,就能独立地匹配水平的扫描线或者在计算匹配分数时水平移动图像。

11.1.2 平面扫描

扫描场景中的一组平面并测量不同图像重新映射到这些平面上的影像一致性。这称为“平面扫描”(plane sweep)算法

11.2 稀疏对应

早期的立体视觉匹配算法是基于特征的(feature-based),它们首先使用兴趣算子或者边缘检测器来提取潜在能够匹配的图像位置集合,然后使用基于块的度量在其他图像中搜索对应的位置。

11.3 稠密对应

尽管稀疏匹配算法仍然不时地被用到,但现在绝大多数立体视觉匹配算法都集中于稠密对应,因为在基于图像的渲染和建模中都需要这样的稠密对应。

11.4 局部方法

局部和基于窗口的方法是通过在DSI C ( x , y , d ) C(x,y,d) C(x,y,d)上的 一个支持区域(support region)求取代价或者平均值来聚集代价的。

11.4.1 亚像素估计与不确定性

为了消除得到的场景好像是由许多剪切层组成的这一情况,很多算法都在最初的离散对应阶段之后使用一个亚像素求精阶段,或者将置信度和逐像素的深度估计关联起来。

11.4.2 应用:基于立体视觉的头部跟踪

虚拟现实和视角修正

11.5 全局优化

全局立体视觉匹配方法寻找一个能够最小化全局能量的解d

11.5.1 动态规划
11.5.2 基于分割的方法

尽管大多数立体视觉匹配算法是在逐像素基础上进行计算的,但是最新的一些方法首先将图像分割成区域,然后尝试为每一个区域标记一个视差。

11.5.3 应用:z-键控与背景替换

利用深度信息将一个前景行动者从背景中分割出来

11.6 多视图立体视觉

尽管匹配一对图像是获得深度信息的一种有用途径,但是匹配多幅图像可以得到更好的结果。

11.6.1 体积与3D表面重建

最具挑战性但也可能是最有用的多视图立体视觉重建衍生问题是建立全局一致的3D模型

11.6.2 由轮廓到形状

在很多情况下,对兴趣目标进行前景-背景分割是初始化或拟合一个3D模型或者向多视图立体视觉施加凸集合限制的一种很好的方式。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值