Computational Imaging 计算成像（二）

我真的太难了啊

已于 2023-02-23 17:20:40 修改

阅读量1.2k

点赞数 1

文章标签：人工智能计算机视觉

于 2023-02-21 10:52:56 首次发布

本文链接：https://blog.csdn.net/qq_15409121/article/details/129119038

版权

在这里插入图片描述

============================================================

2.医学影像开发包

在本章中，我们的目标是发展对数字图像形成模型的理解，这是大多数现代成像设备的核心。建立在图像形成模型的基础上，以及与之相关的各种参数，使我们能够了解常规成像管道的局限性。在后面的章节中，这将是至关重要的，因为我们将看到计算成像哲学如何帮助我们超越常规的可能性。

2.1 光学

2.1.1 动物的眼睛

人眼是一种非常复杂的图像捕捉设备。它利用透镜将物体反射的光聚焦到视网膜上，视网膜由称为视锥细胞和视杆细胞的光敏细胞组成。其工作原理与现代照相机类似。然而，在进化过程中，动物的眼睛并不总是这么复杂。早期的解剖结构，今天仍然可以在被称为鹦鹉螺的海洋软体动物身上看到，是初级针孔眼，它只是一个前面有一个小洞的球体，对面有一层感光器。

2.1.2 光，波和粒子

光线被建模为描述光子可能留下的痕迹的一条线。在捕捉图像时，从概念上讲，每个像素捕捉光线的颜色。因此，图像允许我们通过将可见的外部点映射到相机传感器上的点来检测环境。

然而，光线并不仅仅用于测量环境;它们也可以用于研究光学系统，例如，透镜表面或其涂层。光从光源到目的地通常是衰减的。光线的可逆性意味着如果你交换源和目的地，光线的整体衰减是相同的。

============================================================

在这里插入图片描述

============================================================

从概念上讲，光线在宽度上是无穷小的，并且有一个无穷小的出射点。因此，测量单个射线是具有挑战性的。为了更好地理解光，我们需要看看几个描述光的模型。

首先，光可以被描述为电磁波。

c = 299, 792, 458 meters/s.

频率ν和波长λ通过方程联系起来
在这里插入图片描述

高频射线(如伽马射线)的波长非常小。重要的是要指出，我们通常测量的光的传播速度小于c，因为它被周围的物质粒子所阻碍。

波长对光波的传播方式有巨大的影响。例如，当我们在桥下开车时，我们总能看到周围的环境，但调幅无线电信号可能会闪烁。这是因为两种电磁波的波长不同。与桥口相比，可见光具有较低的波长，因此可以畅通无阻地通过。然而，无线电信号的波长太大，因此我们的天线只能接收到残留的噪声。

虽然最初被视为波形，但阿尔伯特·爱因斯坦首次证明了光可以量子化为光子粒子流。将光建模为波在宏观尺度上很方便;然而，更复杂的处理，如分析由透镜衍射引起的光干涉，需要使用粒子光模型。如果我们试图理解，例如，一个给定的镜头所达到的最大图像分辨率是多少，以及为什么这取决于镜头的大小，这是有用的。在本课程中，光将主要使用波或射线模型来观察。

在真空中，光子被射线模型很好地描述:单光子轨迹没有相互作用。它们的波状行为出现在封闭环境中，例如当穿过一个大小与波长相当的针孔时。正如我们稍后将讨论的那样，这会导致衍射，这是一种特定于波的现象。

由单个光子传输的能量被测量为
在这里插入图片描述

其中h = 6.62610 × 10−34焦耳·s，表示普朗克常数，ν表示频率，λ表示波长。

============================================================

在这里插入图片描述

============================================================

图2.1:理想点源。一个具有辐射通量Φ的点源和一个假想球体的辐照度/退出度。

这意味着频率越高的光子携带的能量就越多。这就是为什么更高频率的光(如紫外线、x射线)更危险，会伤害我们的身体。单个光子携带的能量微不足道，例如，4×10−18焦耳的可见光。有趣的是，当人类的眼睛完全适应黑暗时，我们的杆状细胞可以检测到小至8 - 10光子的光爆发Hecht et al.(1942)。

2.1.3 用射线测量光

光线受到一系列因素的影响，例如

传输的能量
辐射方向
实曲面或虚曲面的面积
波长
能见度

传输的功率由辐射通量Φ测量，它被定义为单位时间内发射、反射、传输或接收的能量，以瓦或焦耳/ s来测量。

============================================================

在这里插入图片描述

============================================================

下面我们介绍一种简化的光源模型，称为理想点源光，它的尺寸是无穷小的，并向各个方向均匀地向外辐射光。点源由辐射通量Φ描述。让我们考虑一个以点源为中心的虚球，如图2.1所示。

点源具有下面列出的许多属性

点源中的所有光线同时垂直地到达虚球上
球面上的点与射线之间存在一一对应的映射关系:球面上的每一点都有一条对应的射线
因此，射线形成了一个连续体，它们的数量是无限的(类似于实值的数量)。
辐射通量在球体表面均匀地传播

因此，由点源发射的每条射线携带0 W，人们只能测量包含不可计数的无限条射线的2D光束。

随后引入辐照度来定义理想点源入射到球面上某一区域的辐射通量为。
在这里插入图片描述
其中Φ为辐射通量，r为球体半径。辐照度以W/m2为单位，与球体半径的平方成反比。例如，半径增加10倍，新球体的辐照度就会减小100倍。鉴于辐照度描述了球体上的一个特定空间区域，我们叫它测量空间功率密度。

辐照度可以在更一般的情况下介绍，其中表面不一定是一个球体。曲面上一点的值由在这里插入图片描述

对于离开目标表面的辐射度，我们引入出射度M，以W / m2。

除了空间功率密度之外，对光的全面描述还需要引入一种测量角功率密度的方法。换句话说，我们需要描述光束内部的辐射通量。一个三维光束需要引入一个广义的二维角称为立体角。

============================================================

在这里插入图片描述

============================================================

2.1 光学
图2.2:圆锥光束的立体面和立体角。

让我们假设我们有一束锥形的光束。立体角的单位度量是立体面，它是由一个顶点位于半径为r的球体中心的圆锥体定义的，圆锥体的底部划定了一个面积为r2的球形“帽”。立体体示意图如图2.2所示。

我们现在可以介绍一般的立体角Ω为
在这里插入图片描述
其中sr为立体体，α为立体角横切面顶平面角的一半，如图2.2所示。

指出球面所对应的立体角为Ω = 2π(1−cos(π)) = 4π sr。现在我们可以介绍辐射强度，它是用来测量角功率密度的。对于覆盖实心角Ω，辐射通量均匀分布Φ的理想锥形光束，其辐射强度满足
在这里插入图片描述

例如，覆盖整个球体的光束具有非常低的强度I = Φ/4π = 0.08·Φ，这意味着一个立体体包含了入射光功率的一小部分。

============================================================

在这里插入图片描述

============================================================

图2.3:平行光束照射面积与入射角的关系。

然而，如果我们将相同的功率聚焦在覆盖球体的第1000部分的光束上，在I = 80Φ处的强度明显更大。

辐照度和辐射强度使我们能够模拟照明现象，如中午和黄昏之间的热量差异。在任何时候，来自太阳的一束光，在这里近似为一束平行射线，照亮地面上与1/cos(α)成正比的区域，其中α是光束入射角，如图2.3所示。

因此，地面上一个给定的固定区域a的特征是辐照度随入射角α的变化而变化。
在这里插入图片描述
其中Φ为光束覆盖相应区域的均匀扩散辐射通量。在这种情况下，我们指出，当入射角为0时，辐照度达到峰值，当太阳移动到地平线后面时，辐照度消失，对应于入射角α = π/2。

在实际应用中，目标不是捕获辐照度或辐射强度，而是辐射度L，它代表射线强度，测量角度和空间功率密度的组合。

辐射度由方程描述
在这里插入图片描述
其中Ω为立体角，A为面积，α为入射角。

============================================================

在这里插入图片描述

============================================================

图2.4:针孔相机。(a)暗箱是一间黑暗的房间，墙上只有一个洞，是针孔相机原理的一个例子。(b)说明针孔照相机原理的示意图。

2.1.4 针孔模型
生物眼睛的原理也是第一个人造相机的工作原理，称为针孔相机Young(1989)。它们是基于一个盒子1/2毫米孔，另一侧有光敏层。

针孔相机的工作原理与暗箱相同，如图2.4a所示。暗箱是一间黑暗的房间，墙壁上只有一个小洞，光线被倒映在对面的墙上。这个相对的壁也称为投影平面，穿过垂直于投影平面上的孔的轴称为光轴。由于光沿直线传播，而且孔非常小，投影平面上的每个点都被唯一地映射到外部场景的一个点上。

针孔相机原理示意图如图2.4b所示。在这里，坐标框架被放置，坐标Z沿光轴，坐标Y垂直于图平面-因此不显示，中心在针孔。针孔与投影平面之间的距离d称为焦距，X0, Y0, Z0表示场景中某一点的坐标，−x，−y, d表示投影平面中相应点的坐标。那么 x = −d X0/Z0 y = −d Y0/Z0。在更紧凑的形式，理想的针孔相机的模型是
在这里插入图片描述

============================================================

在这里插入图片描述

============================================================

图2.5:Pinspeck 相机。这种成像设备是基于针孔相机相反的工作原理，投射阴影形成负图像。

这里，∼表示这两个量是成比例的。如果我们要生成一个数字图像，那么像素在投影平面上的坐标xp, yp满足xp = sx·x, yp = sy·y，其中sx, sy表示缩放常数。在实际场景中，投影平面上的坐标系不是以光轴为中心的。因此，我们引入常数u0, v0来解释:
在这里插入图片描述
此外，为了生成更真实的模型，我们需要考虑到由于光轴在投影平面上可能不是完全垂直而引起的倾斜效应。这种效果由倾斜因子α建模，导致最终的内部相机模型:

针孔相机通过将光投射到平面上来成像。然而，可以使用相反的原理，通过投射阴影来创建图像。这是透视相机的工作原理，科恩(1982)。这款相机不是一个小洞，而是基于一个大光圈，中间有一个小斑点。当物体照亮相机时，斑点在投影平面上投下阴影，有效地创建了一个负图像。透视相机的原理图如图2.5所示。

============================================================

在这里插入图片描述

============================================================

图2.6:针孔相机衍射。当针孔的大小与入射光的波长相当时，一个遥远的物体被成像为一个周围有环的圆形圆盘。

针孔相机是研究光的性质的好方法。然而，从实用角度来看，它们存在曝光时间长、锐度有限、视野有限等问题。曝光时间很长，因为针孔每个时间单位只允许少量光线照射到传感器平面，这意味着创建图像需要更长的时间。针孔相机的图像清晰度与孔的大小成反比。然而，过小的孔洞会引起衍射，也就是光在孔洞周围弯曲。

因此，找到合适的针孔孔径δ来捕捉好的照片是很重要的。正如我们之前讨论过的，对于较大的针孔，投影平面上的每个点都沿着一系列的线映射到场景中的一个点，如图2.6所示。因此，一个遥远的物体被成像为一个半径为δ的圆盘。然而，当δ与入射光波长λ相当时，衍射现象会导致靠近孔径边界的光线弯曲，形成一个圆形圆盘，圆盘周围环绕着圆环，如图2.6所示。
圆盘的直径为 D = 2.44 · λd/δ。

最佳孔径大小是当衍射图样的圆盘直径为δ时。较小的光圈会因为衍射而导致失真，较大的光圈会因为锐度下降而导致图像模糊。让我们计算位于可见光谱中心波长λ = 500 nm的最佳孔径大小。假设焦距d以毫米为单位，经过适当的转换后，最佳孔径大小为
在这里插入图片描述

============================================================

在这里插入图片描述

============================================================

图2.7:折射原理。一束光在两种材料的边界处以斯涅尔定律给出的角度弯曲。

然而，上面的估计假设所有成像的物体都远离孔径。近距离物体会产生比孔径更大的圆盘，从而扭曲图像。而且，孔洞越小，它就越限制视场——在极限情况下，无穷小宽度的孔洞只允许垂直于投影平面的光线进入相机。

2.1.5 光线弯曲和透镜

考虑到前面提到的针孔相机的所有缺点，需要一个更好的设备来成功拍摄。现代相机选用的镜头是基于折射原理的。当光线穿过不同材料的光滑边界时，它会弯曲一个角度，这取决于两种材料的折射率。折射率是每一种材料的常数特性，折射率受斯涅尔定律支配:
在这里插入图片描述

============================================================

在这里插入图片描述

============================================================

图2.8:薄透镜示意图。如果场景中的一个点(黑点)反射到镜头的光在传感器平面上汇聚，则该点(黑点)就是焦点。当相机重新聚焦到另一个点上时，传感器平面相对于镜头移动。

其中n1、n2为折射率，θ1、θ2分别为入射角和折射角。弯曲过程，称为折射，如图2.7所示。

透镜有一个相对一般的定义。任何能把进来的光线弯曲成出去的光线的物体都可以被认为是透镜。根据斯涅尔定律折射光线的方式可以生成的透镜数量非常大。然而，在光学中，通常使用一种理想化的概念，称为薄透镜。薄透镜，也称为旁轴透镜，是一种只受三个参数控制的弯曲光的平面:焦距、孔径直径和透镜速度。

焦距f定义为薄透镜与若干平行光线通过透镜的汇合点之间的距离(以毫米为单位)。焦距1/ f的倒数被称为聚焦力，用屈光度来测量。这个参数是普通眼镜的一个重要特性。

孔径D是通过透镜的锥形射线束的基部的直径。换句话说，弯曲光线的是透镜最大部分的直径。

透镜速度，或f数N是焦距和光圈直径之间的比率。它描述了镜头传输光的能力，即拍摄图像所需的曝光时间。

============================================================

在这里插入图片描述

============================================================

图2.9:基于镜头的暗箱。第一代相机需要手动调整曝光时间。转载自Raskar and Tumblin(2011)。

薄透镜的光弯曲原理如图2.8所示。如果场景点符合薄透镜方程，则它相对于薄透镜和传感器平面处于对焦状态:
在这里插入图片描述
其中S1为镜头与被焦物体之间的距离，S2为镜头与传感器平面之间的距离，f为焦距。

在早期的摄影技术中，拍摄图像需要使用磨砂玻璃观察器手动对焦相机，在相机内部插入感光板，然后手动控制曝光时间，如图2.9所示。最初，这个时间以小时为单位，但由于光传感器的发展，它减少到毫秒。自动快门可以很好地控制曝光时间。

当我们用现代数码相机捕捉图像时，设备本身会自动调整大量参数，以获得清晰而详细的场景视图。这些参数可以涉及到相机作为一个整体，相机镜头，快门或光传感器。

============================================================

在这里插入图片描述

============================================================

相机本身在空间中有一定的位置和方向，允许它捕捉场景的一部分。对于动态场景，捕捉的时间是另一个重要的参数。场景照明，无论是来自相机闪光灯还是来自外部光源，都会影响场景物体的颜色或可见性。

场景反射的光首先与相机快门的开口相遇。这个开口被称为光圈，控制着在任何给定时刻有多少光线进入相机。这个参数与曝光时间密切相关，曝光时间衡量的是快门保持打开的时间。因此，较小的光圈和较短的曝光时间会导致图像较暗。然而，除了图像亮度外，这两个参数对图像有不同的影响，后面会解释。

光线通过光圈后，被相机镜头弯曲。这是由透镜焦距决定的，描述了平行光束在穿过透镜后汇聚的速度。此参数影响视场的宽度。短焦距的镜头对应着宽视场，这使得它可以捕捉到更大的场景。与此同时，短焦距镜头与小光圈相结合可以获得更长的景深。具有宽视场的镜头会缩小场景特征并夸大透视缩短(深度大小)。另一方面，窄视场透镜，也称为长焦透镜，放大景物特征和减少透视缩短。

如前所述，使用透镜而不是针孔极大地增加了最终图像的亮度。因此，很明显，从远处物体发射到相机的光线会更少。这可能表明这个物体在图像中看起来不那么亮，但事实并非如此，原因如下。

如果我们将物体与相机之间的距离加倍，相机检测到的光束在水平和垂直方向上都减少了1/2，导致立体角减少了1/4，因此辐射通量Φ减小了1/4。然而，物体投影在传感器上的每个点的亮度由辐照度R = dΦ/dA给出，其中A表示传感器上被该点照亮的区域。假设光束的立体角变小了1/4，那么，投影在传感器上的面积A也减少了1/4，因此，所讨论物体的平均辐照度R = Φ/A保持不变。

通过与人眼的比较，我们可以将正常晶状体定义为近似复制人眼视野的晶状体。考虑到视场受焦距的影响，普通镜头的焦距大约等于拍摄照片的胶片或数字传感器的对角线尺寸。然而，为了创造真实的感觉，我们需要考虑到我们通常从远处观看图像，这就是为什么在实践中，正常的晶状体产生的视野比生物眼略大。广角镜头用于捕捉普通镜头无法容纳的更大范围的场景。这会导致照片看起来失真，但这种效果通常用较大的照片来解决。

============================================================

在这里插入图片描述

============================================================

图2.10:薄透镜单面的射线弯曲图。被物体反射的光线(红色)在距离光轴h处与透镜表面相交。斯涅尔定律规定了射线相对于平面的法线的新方向(黑色虚线)。

当人们试图拍摄建筑物等场景中的高大物体时，他们会注意到倾斜效果，这意味着图像中的物体似乎向后倾斜。这是由于相机向上倾斜，需要将整个建筑包括在图像框架中。专业摄影师或建筑师感兴趣的是捕捉一个在最终照片中看起来笔直的高大物体。一种选择是图像的后期处理。然而，这个问题可以通过用倾斜移位镜头捕捉图像来解决，以补偿这种效果。

为了理解薄透镜公式的极限，让我们考虑一个凸透镜的表面，如图2.10所示。当光线与透镜表面相交时，根据斯涅尔定律发生折射。但是，由于透镜表面不平坦，入射角增大θ1是相对于曲面法线计算的。所以斯涅尔定律是
在这里插入图片描述

============================================================

在这里插入图片描述

====================================================

此外，我们可以推导出以下内容
在这里插入图片描述
上面的三角表达式导致相当复杂的计算。因此，通常采用旁轴近似，即假定光线与光轴之间的夹角非常小。根据三角函数，我们知道当角β很小时，我们可以这样说
利用这种近似，方程就变成了

在这里插入图片描述
如果我们代入第一个方程的最后两行，我们就得到了
我们现在把描述光在透镜两侧弯曲的方程结合起来，得到透镜方程
其中R1, R2是透镜两个表面的半径。现在让我们假设物体位于离透镜很远的地方。在这种情况下，我们有这个在这里插入图片描述
其中f是透镜的焦距，与近轴近似一致。然后透镜方程采取以下形式，这也被称为透镜制造商的方程:
这两个版本的方程也导致了前面介绍的薄透镜方程

正如我们之前看到的，这个方程描述了如何改变传感器和镜头之间的距离，以保持物体聚焦。然而，在理解了它的推导之后，重要的是要记住它依赖于傍轴近似。这意味着，对于靠近透镜而不是在光轴上的物体，方程将不再精确。

========================================================

在这里插入图片描述

========================================================

类似地，物体可能不是很近，但如果透镜很大，那么近轴近似不适用于在透镜的外部边界相交的光线。

在上面的方程中，1/ f是透镜的聚焦能力。其名称的解释是直观的。当1/ f增加时，q减少，这意味着光线收敛得更快，因此我们说透镜有更高的聚焦能力。

让我们看看当我们把两个薄透镜按顺序放置时会发生什么。方程由
在这里插入图片描述
在这种情况下，规则是第二薄透镜的物平面位于−q2，其中q2是第一薄透镜的焦平面。因此，p2 =−q2，因此，通过将上面的方程相加，我们得到

其中fc为复合透镜的焦距。我们注意到复合透镜的聚焦倍率是每个单独透镜的聚焦倍率之和。反过来，我们可以计算出复合透镜fc的焦距为fc = f1f2/( f1 + f2)。直观地说，第二个透镜使通过第一个透镜的光线收敛得更快，因此产生了累积的聚焦力。

如果两个透镜被长度d分开，那么方程就变成了Ronchi和Rosen(1991)
在这里插入图片描述
真正的透镜不一定是球形的。透镜形状的主要类别，定义了它们如何弯曲光线，如图2.11所示。

有人可能想知道为什么需要使用多个镜头。事实证明，当使用单元素球面透镜时，物体的图像不是在平面上创建的，而是在球面上创建的。这种光学像差被称为“佩茨瓦尔场曲率”或简单地称为场曲率。这意味着我们不能将整个物体聚焦在平面传感器上，这会导致图像在边缘周围看起来模糊。除了使用复杂的镜头设计外，硬件解决方案是使用曲面成像传感器来补偿这种效果。这种成像传感器的一个例子，即NASA的“开普勒焦平面阵列”如图2.12所示。

解决这个问题的一种方法是使用半月板透镜，它可以产生更平坦的图像。然而，这种透镜引入了色差，这意味着它在不同的平面上聚焦不同的波形。

====================================================

在这里插入图片描述
图2.11:主要镜头类型。根据透镜的两个表面的形状，透镜有几种类别。

近轴近似对透镜尺寸和物体相对于透镜的位置有很大的限制。假定β很小，近似sin（β）。这个估计实际上来自于正弦函数的泰勒级数展开
在这里插入图片描述
如果我们包含更多的项，估计就会更精确。Ludwig von Seidel用第三阶逼近
来评估镜片缺陷。并得出结论，有5种像差，使真正的透镜弯曲光不同于完美的透镜。因此，有人可能会问，为什么我们不使用高阶光学来制造更好的透镜呢?事实证明，制作不那么规则的镜片非常昂贵，而使用一堆简单形状的复合镜片要便宜得多。

透镜缺陷的一个众所周知的例子是色差，也称为色散。图2.13所示的现象，使不同波长的光线聚焦在距透镜不同的距离上。从本质上讲，这意味着透镜具有与波长相关的焦距。纠正这种情况的一种选择是基于平凹透镜对不同波长的弯曲也不同，但方向相反。因此，如图2.13所示，双凸透镜与平凹透镜的组合可以对色散进行校正。在8.3.1中，我们甚至将看到在图像捕获设置中如何使用色散属性来获得光谱信息。

====================================================

在这里插入图片描述

====================================================

图2.12:图像曲率效应和开普勒焦平面阵列。当使用单元件球面透镜时，不可能在传感器平面上聚焦整个物体，因此边缘看起来不对焦。与传统的数字传感器不同，用于开普勒空间天文台的成像传感器阵列是弯曲的，因此可以补偿佩茨瓦尔“场曲率”。来源:NASA和Ball Aerospace[链接]。

正如人们所期望的那样，使用两个透镜的堆叠可以纠正两个频率的色差，从而产生一个消色差透镜。同样的原理可以通过叠加三个(减色镜)和四个(超色镜)透镜来应用，分别校正三个和四个频率。然而，这也导致了成本的增加。

另一种透镜像差是由于每个透镜都反射了一定比例的光线，反射回来并引起耀斑和其他不良效果。另一种透镜像差是由于每个透镜都反射了一定比例的光线，反射回来并引起耀斑和其他不良效果。
在这里插入图片描述
式中n1和n2为两种材料的折射率，r为反射光的振幅比。对于空气/玻璃反射率的情况，我们有n1 = 1, n2 = 1.5，这导致r = 0.2。这对应于反射光强度的比率r2 = 0.04或4%。重要的是要指出，这种光强的比例在每两种材料的边界上都是反射的，这意味着对于大量的复合透镜来说是特别不可取的。

====================================================

在这里插入图片描述

====================================================

图2.13:色差校正。双凸透镜的焦距与频率有关。这可以通过将其与平面凹透镜配对来纠正。

在每两种材料的边界，这意味着它是特别不可取的大堆叠复合透镜。

这种情况下的解决方案是在每个镜头上涂上一层防反射涂层。这不会停止反射，但它会抵消反射光，以防止图像失真。涂层引入了一个新的反射边界，这导致了两个单独的光反射，一个由涂层引起，另一个由玻璃引起，如图2.14所示。两束反射光线服从下列条件

1.射线的强度应该是相同的。

2.射线的相位应该是相反的。

这两个条件保证了反射相互抵消，如图2.14所示。设n1, n2, n3为这三个区域的折射率。假设n1 <n2 & lt;N3，条件1可以写成
在这里插入图片描述
很容易看出，n2 =√n1n3满足上述条件，由此得到涂层的折射率。

选择涂层厚度d = λ/4，满足条件二，其中λ为入射光的波长。这确保了当第二次反射穿过涂层两次时，相当于它波长的一半，它的相位与第一次反射的相位相反，因此它抵消了它。

和以前一样，这种校正只适用于一个波长。一般来说，透镜有两到三层涂层，以覆盖更大的光谱部分。

2.1.6 镜头和对焦

在前面的小节中，我们看到了斯涅尔定律如何决定场景中的一个点何时是焦点。然而，在现实生活中，斯涅尔定律并不能用于相机的常规对焦，因为从镜头到物体的长度S1在大多数时候都是未知的。

在摄影的早期，对焦是通过手动移动镜头来最大限度地提高图像对比度。

相机对焦的主要方法之一是基于相位的自动对焦。这是1977年第一台自动对焦相机，名为柯尼卡C35 AF。具体来说，自动对焦系统是测量来自镜头两半的传感器上的光强度。两半各生成一条强度曲线，如图2.15所示。镜头相对于传感器平面移动，直到两个曲线相一致，这确保了相机对焦。

如今，现代自动对焦相机将镜头平移电机嵌入镜头本身。让我们更详细地看看基于相位的自动对焦的功能原理。如图2.15所示，系统需要测量透镜不同部位的强度曲线。然而，仅使用一个镜头和一个传感器是不可能实现的。

该系统使用分束器来测量来自镜头两侧的光相位，使用1D传感器阵列。然后可以单独测量强度曲线，它们的相位差用于计算透镜运动的方向和距离。

或者，相机可以使用基于对比度的自动对焦。这种机制包括一个传感器，它计算对比度为附近像素的光强差异。与基于相位的自动对焦不同，移动的方向不能立即得到，需要一个搜索程序。因此，基于对比度的自动对焦较慢，因为在一些较小的设置中使用，如手机相机。

第三类对焦方法是主动自动对焦。这包括使用超声波或红外光独立测量到物体的距离。这一原则并不需要场景中的最小对比度来发挥作用，但即使如此，它通常也会导致较低的性能。

除了选择正确的对焦机制，另一个单独的问题是场景有几个相机可以对焦的平面。有些相机会自动聚焦在距离最近、最亮或对比度最高的物体上。现代相机通过实时人脸检测来选择对焦平面，或者允许用户手动选择平面，通常是通过点击触摸屏上所需的场景点。

====================================================

在这里插入图片描述

========================================================

图2.15:物体反射透镜弯曲光线的射线图。镜头上下半部分光线的交点(a)落在传感器平面前©和传感器平面后(e)的情况。对应的强度沿传感器平面(b)， (d)， (f)
(d)， (f)表示当物体失焦时，两半透镜如何产生失相强度函数。然后可以单独测量强度曲线，它们的相位差用于计算透镜运动的方向和距离。转载自Ramanath et al.(2005)。

========================================================

在这里插入图片描述

========================================================

图2.16:无镜头MURA摄影实例。(a)用于捕捉图像的掩码。(b)检测图像。©测量重建的图像。(d)不同矩阵大小的MURA模式。

2.1.7 蒙版和光圈操作

在前面的小节中，我们看到了如何在光路中添加一个障碍，一个在其中心有一个矩形窗口的掩模，允许分离来自镜头不同部分的光，并揭示了否则可能未知的信息:对场景中物体的聚焦水平。一般来说，掩模代表平面元素，以空间变化的方式遮挡或衰减光线。

有趣的是，完全用面具代替镜片是可能的。与镜头成像相比，这可以从图像中提取新的信息。与针孔相机相比，这种方法具有更高的光通量，从而获得更明亮的图像。针孔相机使用的是带有单个孔的掩模。缺点是图像需要后期处理。在4中对不同的应用程序进一步阐述了这个思想。

这种应用在摄影中的一个例子是统一修改冗余阵列(MURA)结构，它使用一个几乎50%空的掩模，可以收集比针孔相机多22000倍的光(1989)。掩模由二进制矩阵Ai,j定义，其中值0表示遮挡器，1表示允许光通过的间隙。矩阵Ai,j如图2.16-(a)所示，其中白色对应1，黑色对应0。

原始捕获图像，如图2.16-(b)所示，并没有透露很多关于场景的信息。然而，解码算法允许恢复图2.16-©所示的高质量图像。图2.16-(d)显示了不同矩阵大小的MURA模式的进一步例子。

同样的概念后来被扩展，用一系列可以在时间和空间上控制的光衰减层取代了透镜。这种设置允许从测量中提取更多信息，例如在图像捕获后改变视角。

掩模也与透镜一起使用来生成图像。掩膜可以相对于成像系统放置在三个位置

1.在相机光圈上。

2.在传感器上。

3.在场景上

蒙版放置在光圈水平揭示了许多有趣的性质的场景。例如，在Farid Simoncelli(1998)中，作者计算了当摄像机视点变化时通过掩模的图像强度的差异。他们演示了可以应用两个掩模，以便为每个掩模计算的导数可以用于估计场景的范围。后来，莱文等人还表明，通过在消费级相机的光圈处放置掩模，可以恢复常规照片和相应的深度图。(2007)，因此应用了一种称为离焦深度的技术。单视角深度估计也可以使用端到端设计方法来实现，联合设计掩模和重建算法Wu等人(2019)。

相机光圈不需要使用遮罩，而是可以编程成一个遮罩。采用不同孔径大小和形状的多张照片可以生成空间分辨率更高的图像Liang et al.(2008, 2007)。Sinha等人(2017)使用无透镜成像系统，并将逆变换建模为深度神经网络来获得图像相位。在第4.1.5小节的空间编码成像上下文中，将讨论进一步的示例和其他一些最先进的实现。

第二个选择是在传感器上定位掩模。最常见的例子，存在于许多消费级相机，是拜耳滤镜。彩色图像由三张图像组成，每张图像分别捕捉红、绿或蓝三种颜色中的一种的强度。使用拜耳滤波器，所有三幅图像都可以用一个传感器阵列一次性捕获，通过使用对每种RGB颜色敏感的像素放置在一个称为拜耳模式的模式中。

========================================================

在这里插入图片描述

========================================================

图2.17:在摄像机中放置蒙版的位置

通过使用数字微镜设备(DMD)，可以将光只投射到传感器的选定区域，相当于在传感器上放置一个掩模。DMD本质上是一个微镜阵列，有两种可能的方向，将光反射到传感器阵列，或从传感器阵列反射出去。DMD用于计算高动态范围图像，但也用于执行物体识别Nayar等人(2006)。使用DMD可以将传感器阵列减少到单像素Takhar等人(2006)。这是通过DMD生成各种模式，并将累积的光指向像素传感器来完成的。该系统与压缩感知理论一起用于生成缩小尺寸的图像。Takhar等人(2006)。

在传感器或镜头上放置掩模很容易想象，但在场景上放置掩模通常会更加困难。在这种情况下，通常只照亮场景的某些部分，而让其他部分处于黑暗中，这具有类似的效果。这样做是为了提取场景中的两个照明源:源的直接照明和场景中其他点的全局照明。Nayar等人(2006)。这种来源的分离具有实际意义，因为每个来源都揭示了关于场景的不同信息。直接分量增强了给定点的材料属性，全局分量揭示了场景的光学属性，表明某个点是如何被场景中的其他点照亮的。

========================================================

在这里插入图片描述

========================================================

2.2 图像传感器
2.2.1 相机，射线和辐射

通过测量汇聚在传感器平面上的发射/反射光来成像场景中的一个点。然而，真正的传感器检测光的辐照度，如果光只被传感器吸收在一个点，它是零。单像素探测器测量从场景接收光的点附近的辐照度。

因此，检测到的亮度取决于光束覆盖在传感器上的面积。在前一节中，我们看了光线如何以一定角度落下来导致“余弦衰减”效应，这意味着辐照度随着光入射角余弦的减小而减小。人们可能会想，为什么当从某个角度看屏幕时，图像亮度没有变化。对此的解释是这样的，因为光有一个入射角，新的视角捕获更多的光线，因此增加的辐射强度补偿了传感器上光束覆盖的更大区域。

经过相机镜头处理后，光线照射到传感器上，传感器将其转换为电信号。传感器通过一系列参数影响最终图像的外观。首先，光感光度(ISO)可以用来照亮黑暗的图像。然而，增加ISO也会产生一个更嘈杂的图像。**此外，动态范围(定义为传感器能够检测到的亮度范围)对产生的图像的清晰度有很大的影响，特别是当它同时包含明亮和黑暗区域时。**另一方面，色调范围是由相机捕捉到的实际色调数量给出的，并受到其他传感器参数(如ISO)的影响。传感器对颜色的灵敏度称为波长灵敏度，在大多数相机上可以通过色彩平衡或饱和度设置进行调整。当然，图像的清晰度受到传感器空间分辨率或传感器上像素的数量的强烈影响。

要看清楚一个物体，它必须与镜头保持对焦距离。这是因为在聚焦距离上的点反射的光线会汇聚到传感器上。当相机聚焦在不同的物体上时，它会改变传感器和镜头之间的距离，从而改变聚焦距离。焦距测量可以用来确定正确的镜头位置，以保持图像在焦点。图2.18描述了焦距作为镜头位置的函数，以及三幅不同镜头位置的捕获图像。

景深被定义为场景中相机可以聚焦的最近点和最远点之间的距离。用短焦距和小光圈的相机可以获得最长的景深。即使点在远处的场景可能是当光线到达传感器时，一个小的光圈会减少光线的发散。人眼也受到同样的影响。这就是为什么眯眼可以帮助更好地聚焦在远处的物体上。

========================================================

在这里插入图片描述

========================================================

图2.18:不同镜头位置的成像。用逐渐改善的焦点(a-c)捕获的图像。作为镜头位置函数的焦距测量，当图像对焦时，焦距最大化(d)。转载自Ramanath et al.(2005)。

可以观察到，在相机中，由于小光圈，获得较长的景深通常会导致图像较暗。这可以通过增加曝光时间来解决。如果这个场景是动态的，这将导致运动模糊。增加ISO可以解决亮度问题，但会增加测量的噪声。

传感器受到几种类型噪声的影响，每种类型在特定的成像环境中更为普遍。读噪声由传感器像素噪声和模数转换器产生的噪声组成。这种噪声决定了捕获图像的对比度，并以不同的方式影响CMOS和CCD传感器，因为在后者中ADC不是实际传感器的一部分。抛粒噪声是由于势阱捕获电子的离散性质，在较明亮的环境中更普遍。为了解决这种类型的噪声，需要一个更大的潜力井。

数学上，读噪声被认为是噪声的高斯部分，由静止扰动引起，而射噪声是由光子感知引起的泊松部分。它们的名称是根据对其值建模的分布来给出的。随着屏幕具有越来越高的分辨率，像素尺寸减小，对每个像素的光子噪声的敏感性增加。因此，炮点噪声是目前成像传感器噪声的主要来源。

因此，总体噪声是依赖于信号的，与通常的加性白非常不同高斯噪声在图像处理中很常见。像素有限的动态范围在许多情况下会导致过度曝光，或捕获接近每个像素最大容量的光。这种效应进一步增强了信号相关的噪声。

传感器在每个像素处的测量值z(x, y)由
在这里插入图片描述
其中x, y为二维像素位置，I(x, y)为光信号，ζ(x, y)为均值为零，标准差为1的高斯噪声，σ(I(x, y))为信号相关的标准差。在上面的方程中，我们试图从z(x, y)的测量中估计I(x, y)和σ(I(x, y))。

为了分离高斯噪声和泊松噪声的影响，我们将测量偏差写成Foi et al.(2008)。
在这里插入图片描述
噪声分布可以写成如下形式

其中P®为泊松分布，N (m, v)为均值为m，方差为v的高斯分布。事实证明，标准偏差具有Foi等人(2008)的表达式。

去噪是信号处理中常见的一种处理方法。然而，去除依赖于信号的噪声是一项更具挑战性的任务。在Foi等人(2008)中，作者采用了一种算法，分几个步骤恢复图像I(x, y)，并估计了变化的标准差σ(我(x, y))。首先，需要对图像进行平滑区域划分。为此，他们通过分割采用边缘检测。其次，他们在平滑区域中计算标准偏差的局部估计。这是基于在局部小区域内变化的标准差相对恒定的假设。最后，利用局部测量拟合噪声的全局模型。

========================================================

在这里插入图片描述

========================================================

2.2.2 数字图像形成

我们用眼睛看到的世界是空间坐标的连续三维函数。照片是三维场景中“光子数目”的二维地图。在胶片摄影中，这个映射是一个连续的函数。然而，当涉及数字图像时，对应的二维函数是离散表示，因为用于成像的像素数是离散的，有限多。因此，我们可以将图像视为在空间坐标上描述函数的物理实体的数学表示。单个像素是连续场景离散表示的基本元素，与一维情况类似，它们是参考ShannonNyquist采样公式的函数样本。因此，我们必须记住，图像仅仅是场景的一种表现，而不是连续的场景本身。为了理解图像形成过程的基础，我们必须理解控制这一过程的物理定律。

从数学的角度来看，图像可以被视为从空间域到成像传感器范围的映射。设r指笛卡尔平面中的空间坐标，则图像I: S→P是从场景到像素域的映射，使得每个r∈S都映射到I®∈P。

在彩色成像的情况下，对于二维空间中的每个点r，我们每个像素获得三个值，即红色、绿色和蓝色值(强度)。因此，得到的图像可以表示为下面的函数，将一个向量映射到另一个向量，在这里插入图片描述
相比之下，当处理单色图像时，我们有一个更简单的映射形式r∈R2→I®∈r。

为了将I®定义的数据存储在计算机上，需要分两个阶段进行处理:采样和量化。亮度值，由值I®给出，总是正的，属于一个有限的区间。

为了被数字设备存储或处理，亮度值被映射为一组有限值，通常为{0,1，···，255}，这也称为量化。在彩色图像的情况下，每种颜色都被映射到256个可能值中的一个。在单色图像的情况下，一些传感器采用较高的分辨率，值编码在12位，即在{0,1，···，4095}范围内。分辨率的选择取决于两个因素:捕获的图像和要执行的处理。例如，计算机断层扫描(CT)图像使用超过10位，而低级网络摄像头每色大约6位。更复杂的处理，如梯度计算，也需要更高的分辨率以获得良好的结果。

========================================================

在这里插入图片描述

========================================================

量化保证图像亮度只能取有限个可能值中的一个。然而，图像有无限个点。因此，我们需要沿着每个轴对图像的值进行采样，并定义一个新的采样图像 (i, j) = i (i∆x, j∆y)，其中ri,j = (i∆x, j∆y)表示采样的空间坐标，∆x和∆y分别表示沿x和y方向的采样距离。这里Is(i, j)表示一个像素，即图片元素。需要指出的是，像素是从图像中提取的点样本，而不是常见的误解所认为的可测量尺寸的小正方形。当图像是3D而不是2D时，则像素称为体素，体素是3D空间中的点样本。

2.2.3 图像插值

在连续图像被采样和量化之后，重要的是我们可以计算原始连续图像在任何所需坐标上的值。在不同于采样点的位置上计算I(x, y)值的过程称为插值。有人可能会问，插值是否适用于任意选择的采样距离∆x和∆y?事实证明，最大采样距离是图像带宽的函数，这些值代表了香农采样理论的扩展，最初是为时间采样引入的。现在，我们假设采样距离∆x和∆y足够小，使得样本能够很好地代表图像。亮度函数I(x, y)沿二维空间进行采样。让我们先看一些用抽样函数gS(k) = g(k)插值一维函数g(x)的例子。注意，为了简单起见，我们使用的采样间隔为1。

最近邻插值：
顾名思义，这种方法选择位于最近采样位置的采样值，而不计算新的值。这是一种计算非常便宜的插值方法，但在实践中并不总是产生有用的结果。在这里插入图片描述
线性插值：
这是一个稍微复杂的插值，但结果有所改善。如果对于最近的邻居，我们需要一个样本，在这里我们使用两个样本来计算新位置的插值。在这种情况下，插值函数的表达式为。

========================================================

在这里插入图片描述

========================================================

图2.19:最近邻插值。原始连续函数（虚线）和插值（实线·）

高阶插值：
最近邻插值和线性插值的复杂度可以增加。这两种方法本质上都是将一个0次多项式(最近邻)和1次多项式(线性)拟合到一些样本，新的样本值被计算为在新的样本位置评估的拟合多项式。例如，三次插值是指拟合形式的3次多项式在这里插入图片描述

========================================================

在这里插入图片描述

========================================================

图2.20:线性插值。原始连续函数（虚线）和插值（实线·）

系数c1, c2, c3, c4的值可以从已知的样本分析计算在这里插入图片描述
显然，这是一个更复杂的插值，但它会导致非常好的结果，如图2.21所示。

二维图像插值：

一旦理解了1D插值，推广到2D就很简单了。具体来说，它由两个部分组成:在x方向上插值，和在y方向上插值。对于线性插值，图像在x, y点处的线性插值，计算为在这里插入图片描述
其中x∈[i,i + 1]， y∈[j, j + 1]为插补点的坐标。图2.22描述了一个二维线性插值的例子。

现在让我们看看在采样过程中真实图像发生了什么。为了增强高频上的效果，我们从倾斜视图的棋盘图案开始，如图2.23所示。

图像的高空间频率大多位于顶部，这里的正方形较小，距离更近。您可以看到，简单地降低图像采样，在这种情况下，通过在两个空间维度上丢弃两个像素中的一个，会导致顶部部分的高频失真。这些失真被称为混叠，理论上可以用香农的奈奎斯特速率公式来解释，该公式指出采样频率fs应该满足在这里插入图片描述
其中fMAX是信号中的最大频率，2 fMAX被称为奈奎斯特速率(3.2.1)。因此，为了在图像采样后得到好的结果，我们可以对其进行滤波。在图2.24可以看到原始图像的傅里叶变换以及用boxcar函数过滤的图像。原始图像在频域边缘附近有频率分量。低采样图像的频域减小，因此我们需要通过滤波去除信号中高达最大频率一半的高频，以满足Shannon的要求奈奎斯特速率条件。在图2.24的右侧，我们可以看到滤波后的光谱仍然被四个小波瓣所包围。这是因为boxcar函数不是一个理想的低通滤波器，它的傅里叶变换是一个基数正弦函数。

如果我们对这张新的过滤图像进行下采样，我们会注意到混叠效果几乎不可见，如图2.25所示。

========================================================

在这里插入图片描述

========================================================

图2.25:图像滤波下采样。原始图像用boxcar函数进行过滤(左)，然后向下采样2倍(右)。

图2.26:数字成像管道的主要步骤。转载自Ramanath et al.(2005)。

2.2.4 数字成像管道

从场景反射的光线到我们电脑上的最终图像文件的转换阶段被称为数字成像管道。它由几个主要阶段组成，如图2.26所示。

========================================================

在这里插入图片描述

========================================================

图2.27:CMOS相机传感器的基本组件。

首先，使用光学参数(如光圈和曝光时间)来操纵场景反射的光，这些参数可以弯曲光线并将其定向到传感器上。几个世纪以来，传感器有了很大的发展，现在主要有两类:电荷耦合器件(CCD)和互补金属氧化物半导体(CMOS)。CCD基于MOS电容，由于其价格和功耗较高，主要用于高端相机。CMOS基于MOSFET晶体管，对消费者更友好，功耗更低，价格更实惠。它更容易产生噪声，但这可以用数字去噪部分解决。因此，我们将重点介绍CMOS传感器。

CMOS传感器本身为每个像素配备了一个微透镜，它具有增加该像素捕获光量的效果。然后，光线通过一个滤色器，滤色器提取出与红、绿、蓝颜色相关的波长。然后，经过过滤的光照射在光电二极管上，光电二极管相应地产生电子。这些电子被储存在势阱中。传感器的原理图如图2.27所示。为了简单起见，只显示3个像素。每个颜色滤光片对每个波长的灵敏度如图2.28所示。

在一个完整的商用传感器中，滤色片不是均匀分布的。它们遵循一种特定的模式，称为彩色滤镜阵列，它决定了图像的最终外观。一种非常常见的颜色过滤器阵列是拜耳过滤器，它包含50%的绿色过滤器，25%的蓝色和25%的红色。这是受人类视网膜在白天使用锥细胞的启发，锥细胞对绿光最敏感。由于不同颜色像素的混合，传感器生成的图像被称为马赛克图像。

========================================================

在这里插入图片描述

========================================================

图2.28:数码彩色相机的光谱灵敏度。转载自Ramanath et al.(2005)。
图2.29:数字处理管道中的模拟前端。

每个像素的势阱产生一个模拟电压信号，进入预处理管道，由几个阶段组成。首先，用模拟前端处理电压，如图2.29所示。这将传感器输出的模拟马赛克图像转换为原始数字马赛克图像。首先，模拟电压通过一个放大器，其增益由相机的ISO设置调制。由于渐晕效应，离图像中心越远的像素，增益越大，渐晕效应会使图像的末端变暗。其次，模数转换器生成数字信号，通常大小为10-16位。第三，传感器在其范围的极端处(非常亮或非常暗的像素)会出现非线性，这可以使用查找表进行修正。查找表简单地将输出值映射到任何可能的输入值，这是处理数字信号的一种非常快速的技术。Gruev和Etienne-Cummings(2002)实现了一种伪通用图像处理器芯片，在焦平面上实现了可操纵的空间和时间滤波器。

========================================================

在这里插入图片描述

========================================================

模拟前端的输出图像称为原始图像。许多消费级相机允许访问这种格式，因为许多应用程序，如基于物理的计算机视觉，在原始图像上比处理过的图像工作得更好。然而，由于高噪音和不合适的色彩平衡，它们看起来并不是很吸引人。

下一个处理阶段调整原始数字图像的白平衡。这是必要的，因为一个人看到的白色与对场景的感知有很大关系。因此，白平衡是通过对图像着色施加假设来调整的。一种方法是假设图像的平均颜色是灰色的，称为灰色世界假设。另一种方法叫做白色世界假设，它假设场景中最亮的物体是白色的。然而，现代相机使用基于直方图的算法，假设各种颜色的特定比例。

接下来，回想一下，在这个阶段，图像仍然是颜色的马赛克，这意味着每个像素存储特定颜色的信息。我们需要将这张马赛克图像转换为三张图像，分别对应红色、绿色和蓝色。然而，红色和绿色信息在蓝色像素的位置上丢失了。那么如何恢复这些信息呢?这可以通过插值来实现，甚至简单的算法平均最近的邻居也可以获得良好的结果。这一阶段的三幅图像仍然受到噪声的强烈影响。因此，通常应用去噪阶段，例如平均或计算相邻像素的中位数。人类心理上感知的颜色通过颜色空间映射到光的波长。它们可以再现颜色。这些映射在图中表示为颜色转换。这种颜色空间的例子有CIEXYZ和ISO-RGB Ramanath等人(2005)。

在所有这些步骤之后，图像看起来仍然不自然。这是因为人类视网膜中的光检测是亮度的非线性函数，对暗色调更敏感，而对于相机来说，这种关系是线性的。为了解决这个问题，采用了后续的后处理步骤。因为人眼的非线性函数类似于数学函数，补偿这种效应的过程被称为伽马校正。经过这一步，图像在人眼中的外观有了明显的改善，但仍然占用了大量的空间。这就触发了最后一步，称为压缩，它将图像大小减少了三分之一。最终的结果是一个压缩格式的吸引人的图像，如jpeg或png。

========================================================

在这里插入图片描述

========================================================

2.3 照明

照明的使用是一种自摄影开始以来就没有太大发展的东西。可以说，这是区分业余摄影师和专业摄影师的主要因素。专业摄影师测量光强，然后手动选择合适的相机参数，如ISO感光度、曝光时间、光圈。在自动相机中，这些参数是自动选择的，但这种选择并不总是能得到最令人满意的照片。

类似于ISO或曝光时间，有几个参数可以调整相机照明:

持续时间和强度
是否有辅助照明
颜色，波长，偏振
位置与方向
空间和时间的调制

下面将分别讨论上述每个参数。

2.3.1 持续时间和强度

使用高快门速度可以捕捉快速移动的物体。即便如此，这些都是相当有限的，因为它们涉及移动的机械部件。

这意味着我们无法用这种方式捕捉某些物理现象。另一种方法是利用频闪灯这种电子设备快速爆发的闪光。

一个典型的例子是麻省理工学院教授哈罗德拍摄的“子弹穿过苹果”的图像。

这是频闪摄影技术的一个例子，是在20世纪30年代，它利用光和声音精确定时触发闪光爆发。频闪摄影的自然延续是高帧率胶片。通过将频闪灯的短光爆发与高灵敏度的CCD和CMOS传感器相结合20世纪80年代，制造商开发了超短曝光的相机。今天，这项技术已经发展到经济实惠的相机在0.2 MB分辨率下达到每秒300帧，而高端相机在全高清(2MB)决议。

利用频闪摄影功能的另一种方法是在一个相机曝光中产生几个脉冲，称为连续多闪光频闪。一般来说，这是在一个黑暗的背景下完成的，爆炸的频率和持续时间是设定好的，这样运动中的物体的不同帧就不会重叠。

========================================================

在这里插入图片描述

========================================================

2.3.2 辅助照明

闪光照明是目前大多数相机内置的。通过在捕捉图像时调整照明，可以提取各种特征。在Dicarlo等人(2001)中，作者分别使用环境照明和闪光灯的两次快照恢复了物体的反射率。用不同强度的闪光灯拍摄照片，可以模拟连续水平的闪光灯Hoppe和Toyama捕捉的图像(2003)。

当环境光线较弱时，使用闪光灯显然是必要的。但是，如果环境光线相对充足，是否建议使用闪光灯?众所周知，闪光照片可以产生具有清晰高频细节的图像，并且具有更强的噪声鲁棒性。然而，环境光是场景的一部分，我们可能想要捕捉它。此外，由于人工照明，闪光灯照片看起来相当不自然。可以将闪光照片与环境光拍摄的照片结合起来，以实现两种方法的优点Raskar et al.(2004)。具体地说，该方法生成包含从闪光灯照片中分离的细节和从环境光照片中分离的阴影的新图像。分离是使用一种称为联合双边滤波器的成像处理技术进行的。

类似地，一个双边滤波器可以用来简单地去噪图像捕捉没有闪光Tomasi和Manduchi(1998)。通常，当图像被过滤时，细节和噪声一起被去除。当使用双边滤波器时，强度相似度测量取消了在有图像细节的区域的滤波效果，在闪光图像中被量化为高频。当闪光图像包含阴影时，这种技术很容易产生错误和伪影——这将被双边滤镜解释为细节，或者当它过度曝光时——这意味着细节将被调暗或完全删除。这将导致双边过滤器从环境图像中删除细节，或留下没有细节的未过滤区域。

如前所述，双边滤波方法失败时，闪光饱和图像的部分。类似地，由于传感器具有预定义的动态范围，闪光可能会导致颜色太亮而无法捕捉。在不同的场景中，物体可能位于距离闪光不同的地方，因此低强度的闪光无法照亮远处的物体，而高强度的闪光则会使场景中近处的点饱和或“爆炸”。解决方案是，在环境光图像的情况下，将几个图像的有益特征组合成一个高质量的图像。在这种情况下，作者在 Raskar 等人(2008)将不同闪光强度的图像结合起来，生成单一的高动态范围(HDR)图像。

========================================================

在这里插入图片描述

========================================================

图2.30:从Flash图像中移除工件。图像梯度用于定位图像伪影并移除它。随后，所述隔离的人工制品可以被集成以生成所述拍照者的图像。转载自Agrawal等人(2005)。

另一种解决闪光图像伪影的方法是计算闪光和环境光图像的梯度向量。Raskar等(2008)。像素中的梯度向量是强度变化最突然的方向。因此，这是直观的，在边缘的梯度是垂直于边缘的所有像素接近它。使用这种观察，一个人工制品被定位在像素有显著差异的梯度矢量方向之间的环境光和闪光图像。这种技术叫做“梯度相干性”Raskar等人(2008)。

一个有趣的研究问题是，是否可以从生成的梯度向量重建图像。梯度通常被实现为一个差值在这里插入图片描述
因此，重构I的问题显得微不足道，即通过∆I(x, y)的累积和进行恢复。然而，当梯度不一致时，就会出现并发症，这意味着结果取决于求和所沿的路径。有几种方法可以解决这个问题Agrawal等人(2006)。在 Agrawal et al.(2005)，作者使用梯度矢量投影将环境图像和flash图像结合成具有环境特征的高质量图像(图2.30)。有趣的是，闪光灯图像梯度的残差可以被集成，以恢复摄影师的图像，在原始闪光灯图像中不可见。

========================================================

在这里插入图片描述

========================================================

图2.31:使用常规照明生成合成彩色照明。使用环境光捕获图像，然后使用左方向(左)和右方向(中)的照明。通过从环境图像中减去人工照明的图像，可以生成合成彩色照明(右)。转载自Haeberli(1992)。

从闪光图像梯度的残差可以被整合，以恢复一个图像的摄影师，不可见的原始闪光图像。

2.3.3 修改颜色，波长和偏振

到目前为止，我们研究了不同强度的白色照明来实现所需的图像特征。通过选择包含特定颜色的闪光灯，可以对图像执行可编程的颜色操作。例如，两种颜色可以看起来相同8.2.3或不同，这取决于捕获时的照明类型，可以通过调制照明波长(8.3.4)来缓解。

这也用于荧光摄影，利用荧光表面发出低频光以响应高频照明的事实。在这种情况下，光源发出紫外线，相机过滤掉不可见光，因此只捕捉荧光表面的反射。

彩色照明可以用传统照明拍摄的照片来模拟。在Haeberli(1992)中，作者在主体的两侧使用了两盏带有白光的灯，并拍摄了三张照片:一个有环境照明，两个有各个方向的照明。通过从其他两个中减去环境光图像，可以量化每个灯的贡献。然后，通过软件操作，他们模拟了一个图像，其中每个光源具有不同的波长(图2.31)。

2.3.4 修改位置和方向

如果我们可以改变一个场景的照明，我们可以显示不同的表面细节，否则隐藏在视图中(4.3)。一个例子是定位形状不连续，这是场景中不同斑块之间的深度差异。这与边缘检测密切相关，因为图像中的边缘在很大程度上是形状不连续的原因。

========================================================

在这里插入图片描述

========================================================

Raskar等人(2004)展示了如何使用多次闪光来使用深度不连续(深度值变化的点)来查找轮廓。深度不连续，或边缘，通过阴影窄条，或在照明的相反方向投射的银色来识别。此外，该技术可用于生成无阴影的图像。

上述方法的弱点是，它不能容纳小物体，或远处的背景。这些导致了与主体分离的阴影。然而，该方法可以扩展到视频片段，通过使用高速闪光序列Raskar等人(2004);Taguchi(2014)。Feris等人(2004)也将该原理用于解码手语输入。

在图像捕获后生成合成照明也被证明有助于为摄影照明设计新手生成绘画界面Anrys和Dutré (2004);莫汉等人(2005)。这使得他们可以在局部改变图像中的照明后看到结果，这比每次用不同的照明重新拍摄要方便得多。

如果图像只有一个光源，那么像素亮度与光照强度成线性关系。假设相机具有线性响应，那么只需增加产生的像素亮度，就可以实现更强大的照明效果 Nimeroff等人(1995);Haeberli(1992)。如果有几个光源存在，最终强度计算为每个光源相应强度的加权和。

为了获得最大的灵活性，理想情况下，一个人应该能够从任何可能的位置拍摄照片。然而，当照明设备被限制在一个预定义的区域内时，即在一个广场内，这是不可能的。在一般框架中，场景由两个4D函数描述，称为光场:

入射光场Li(u, v， α， β)描述光在空间物体上的辐照度。
辐射光场Lr (u, v， α， β)量化一个物体产生的辐照度。

该模型被扩展到定义8D反射率场，测量由空间中任意投影仪显示的入射光线确定的传感器的辐照度 Debevec等人(2000)。如果我们固定视点，反射率场可以减小到6D。即便如此，捕获和存储这种高维数据在实际场景中也会产生问题。投影仪也安装在机械臂上，以获取人脸的反射场Debevec等人(2000)。这可以看作是一个像素在球体表面上的平移，导致入射光场的维数降低，因此减少了最终的4D反射率场。

========================================================

在这里插入图片描述

========================================================

2.3 光照

通过控制主体周围不同位置的光的颜色和强度，可以将主体的图像无缝地集成到新的场景中(2002)。在实际应用中，减小四维反射场的尺寸是非常需要的。为此，在Malzbender et al.(2001)中，作者观察到，当改变照明入射角时，像素的颜色随一个函数的变化可以接近于一个双二次多项式。这允许他们只存储多项式的系数，然后使用压缩感知来大大减小反射率场的大小。然而，正如人们所期望的那样，镜面反射只发生在入射照明的某些角度，在双二次多项式近似中引起扰动，这仍然是该领域的一个开放问题。

6D反射率场可以更好地描述场景。尽管照明设置的数量理论上等于每个投影仪的像素数乘以投影仪的数量n，但它表明，通过在n个位置移动的单个投影仪照亮场景可以显著简化。(2003)。

2.3.5 修改空间和时间

为了控制发出的每条射线的亮度，人们可以使用类似投影仪的光源，这允许控制每个单独的像素，而不仅仅是整体亮度。研究表明，使用这种光源来辅助相机捕捉图像可以提取使用常规闪光灯无法获取的场景信息。Nayar等人(2006)。这种类似投影仪的设备被称为“CamPro”，它仍然相当笨重，无法完全取代传统的闪光灯，但如果它能与智能激光器一起实现，它在未来可能很有前途。

显然，一个重要的任务是从2D图像中恢复场景的3D形状。结果表明，恢复物体三维位置的问题与不同视角图像中像素点的对应问题密切相关。后一个问题需要在每张从不同角度捕捉的图像中的点集之间找到匹配3D场景中的点的对应关系。对应问题可以通过使用带有时间多路复用的投影仪来解决:每次投射出一种特定的模式，可以被记录不同视角的摄像机识别。

一旦解决了对应问题，就可以通过摄像机和投影仪之间的三角测量来恢复3D位置。这只需要一个相机和一个投影仪就可以工作，如图2.32所示。

这个问题类似于立体三角测量的问题，在立体三角测量中，场景中的一组3D点是根据从2个或更多视角捕获的图像之间的视差图确定的。在我们的例子中，不是两个被动相机，而是一个主动相机和一个通过照明对空间进行编码的投影仪，这个过程被称为主动立体三角测量。对于对立体成像感兴趣的读者，我们讨论了一些例子，其中在飞行时间成像中使用极面几何来连续获取图像场景的条带。

========================================================

在这里插入图片描述

========================================================

图2.32:单摄像机和投影仪的三维目标定位和对应问题。几个模式被投射到场景对象上，由单个摄像机检测。目标三维定位是通过三角剖分来计算的。

由投影仪生成的图案的数量可以通过编码投影形状之间的边界来减少。投射的光也可以有二进制模式，其中像素可以关闭，或者具有固定的亮度水平 Posdamer和Altschuler(1982)。

投影仪可以在空间上进行调制，从而在给定的时间内照亮场景中的不同点，或者在时间上，这意味着模式在连续的帧中发生变化。这两种调制也可以结合使用。

正如我们在第2.1.7小节中简要提到的，可编程闪光灯可用于将场景散射的光分为两部分:

由光源引起的直接照明增强了材料在给定点的性能，
全局照度，由场景中的其他点决定，它揭示了物体的光学特性，即表明场景中的某个补丁是如何被场景本身照亮的。

========================================================

在这里插入图片描述

========================================================

Nayar等人(2006)提出了一种分离这两个组件的方法，其中投影仪在空间上用棋盘二进制模式进行编码。这意味着场景被分割成方形的小块，由放映机间歇地点亮和不点亮。该技术基于以下主要观察结果:如果使用高频棋盘图案，未点亮的斑块只包含全局照明成分(从点亮的斑块反射的光)。另一方面，点燃的补丁包含全局照明和直接照明组件。

这意味着，从理论上讲，捕捉两帧就足够了:一个用棋盘图案照明，另一个用补充照明图案照明。这确保覆盖整个场景，并足以恢复每个照明组件。然而，由于在现成的投影仪中常见的泄漏效应，有必要捕获5倍多的图像来弥补这一缺陷Nayar等(2006)。整体照明和直接照明只是分开一个和几个反弹的照明由一个投影仪发射。Seitz等人(2005)还可以进一步模拟光射线的个别反弹。

除了在空间上的调制，投影仪还可以在时间上进行调制，通过使用高频频闪灯以预定义的模式定期获取场景的快照。在这种情况下，一个有趣的效果是照明频率不同于场景中周期性运动的频率。在这种情况下，捕获的图像由感知频率来表征，这是两个频率之间的差异。

因此，如果两个频率相同，捕获的镜头将显示现场物体停滞不前。这在声带失真检测等应用中非常有用。通过用预定的频率照亮脊髓，医生可以判断脊髓运动中是否存在生理扭曲。

========================================================