摘要
本文针对不同光照条件下的“基于类”识别和图像合成问题进行了研究。基于类的合成与识别任务如下:给定一个目标的单一输入图像,与同一类其他目标在不同光照条件下的样本图像,获取其等价关系(通过生成新的图像或通过不变量)在对象的所有图像中对应新的光照条件。
我们的方法的关键结果是基于光照不变的特征图像的提取,我们称之为“商”图像,它能够从一个输入图像和一个非常小的类其他对象样本的光照变化下解析生成图像空间-在我们的实验中,只有两个对象。在许多情况下,识别结果远远超过传统方法,考虑到样本图像数据库的规模和使算法工作所需的温和的预处理,图像合成质量显著。
1 引言
考虑通过在3D对象或场景上应用可变性源(比如改变光照或观察位置)生成的图像空间。在一定的情况下,通过改变源的参数所产生的图像可以表示为来自图像空间的小样本图像的函数。例如,一个三维Lambert表面的图像空间是由三个图像的基础来决定的,忽略了投影阴影[IO, 11, 6, 2,81]。在这种情况下,图像空间在光线变化下的低维数有助于合成新的图像。
视觉识别与图像合成密切相关。从某个变化源下的单一图片中识别熟悉的对象需要掌握如何捕捉由该变化源创建的图像空间。换言之,视觉识别的过程需要捕捉等价类关系的能力,该等价类关系要么是“生成的”,即从对象的多个示例图像创建一个新图像,要么是“不变的”,即创建一个对象的“签名”,在考虑的变化源下保持不变。例如,在生成过程中,一组基本图像可以形成图像空间的紧凑表示。如果一个新的输入图像可以从一组基本图像合成,那么它就被认为是图像空间的一部分。另一方面,在基于不变性的过程中,签名可能是一个“中性”图像,比如在标准照明条件或观察位置下的对象。新图像首先被转换成中性形式,然后与中性图像的数据库进行匹配。
本文主要研究了一类目标在光照条件下的识别和图像合成。这些对象属于一个通用类,例如人脸类。换句话说,对于合成任务,给定一个对象类成员的样本图像,以及该类中一个新对象的单一图像,我们希望合成新对象的新图像,以模拟光照条件的变化。
我们的方法基于一个新的结果,该结果表明,在一组具有相同形状但表面纹理(反照率)不同的Lambertian对象上,通过改变光照条件而生成的所有图像集,可以使用原型对象的图像和(光照不变的)“特征”图像进行分析表征类的每个对象。我们的方法有两个优点。首先也是最重要的一点是,该方法使用一组非常小的示例对象(只有两个示例对象)对真实图像(人脸)进行了非常好的处理(见图2)。在许多情况下,重新渲染的结果与真实的物体是无法区分的,并且识别结果远远优于传统的方法。第二,由于我们的方法是基于一个简单和干净的理论基础,可以清楚地区分其局限性和突破点,从而进一步增加了该算法的实际应用。
图1.来自Vetter的200个对象数据库的10个对象的引导集。
图2.图像合成的例子。(a)三种不同光照条件下的原始图像和(b)三幅图像的线性组合的合成图像。使用原始单幅图像©和N = 10 自举集合合成的图像如(d)所示。最后,(e)是一个N = 2的自举集,用于从单一原始图像©生成合成图像(f)
1.1 相关工作
关于不同光照条件下图像空间低维化的基本结果最早在[10,113]中以Lambertian对象为例进行了报道。应用和相关系统在[6,2,51]。在更一般的假设下重新考虑,但开发光传输的线性被报道在[8]
[3,1,4,15,141]中报告了关于“基于类的”图像合成和识别的工作(主要是具有不同的观察位置)在(部分列表)。这些方法采用了一种“重建”方法,其中合成过程的一个必要条件是从实例数据库中生成、重建原始的新图像。例如,[16]的假设下的“线性类”对象的三维形状的线性组合很接近(在3D中)。最近,[9]提出携带一个附加误差项,即新图像与实例数据库中重建图像之间的差异。在合成过程中,误差项也被修改,从而补偿可从实例数据库生成的图像空间与期望图像之间的差异。他们的错误项有点类似于我们的签名图像。然而,我们寻找的不是误差项,而是照明不变项(签名图像),该项使得由单个原型(或参考)对象跨越的图像空间与新图像之间的差异(在乘法意义上)。示例数据库用于恢复生成签名图像所需的若干参数。
2 背景和定义
我们将考虑具有朗伯反射函数的对象,即图像可以通过反照率(纹理)和点光源与曲面法线之间的余弦角的乘积来描述: ρ ( x , y ) n ( x , y ) T s ρ(x,y)^n(x,y)^Ts ρ(x,y)n(x,y)Ts,其中0≤ρ(x,y)≤1是与图像中的点x,y相关的表面反射率(灰度级),n(x,y)是与图像中的点x,y相关联的曲面法线方向,s是(白色)光源方向(点光源),其大小是光源强度。
我们将在本文中使用的基本结果是,通过改变光源向量s而产生的图像空间存在于三维线性子空间中[10,11]。为了了解为什么会这样,考虑在线性独立光源向量s1、s2、s3下分别拍摄的同一物体(ρ,n是固定的)的三幅图像 I 1 、 I 2 、 I 3 I_1、I_2、I_3 I1、I2、I3。线性组合 ∑ j a j I j ∑_ja_jI_j ∑jajIj是一个图像 I = ρ n T s I=ρn^Ts I=ρnTs,其中 s = ∑ j a j s j s=∑_ja_js_j s