一种基于局部结构先验平滑回归人脸图像超分辨率算法
摘要
当遇到低分辨率(LR)探测脸部图像时,传统人脸识别系统的性能急剧下降。为了获得更详细的面部特征,在过去的十年中已经提出了一些面部超分辨率(SR)方法。人脸图像SR的基本思想是在一组训练样例的帮助下从LR中生成高分辨率(HR)人脸图像。它旨在超越光学成像系统的局限性。在本文中,我们将人脸图像SR作为特定领域图像的图像插值问题。提出了一种基于局部结构优先(LSP)平滑回归的缺失强度插值方法,简称为SRLSP。为了在目标HR图像中插入缺失强度,我们假设位于相同位置的面部图像块具有相似的局部结构,并且使用平滑回归来学习LR像素与一个位置块的缺失HR像素之间的关系。在两个公开人脸数据库和一些真实世界的图像上与最先进的SR算法的性能比较显示了所提出的用于一般人脸图像SR的方法的有效性。另外,我们基于超分辨HR面对扩展的Yale-B人脸数据库进行人脸识别实验。实验结果明确验证了我们提出的SR方法优于人脸识别应用中的最新SR方法的优点。
1.简介
具有高质量和高分辨率(HR)的图像,这意味着图像中的物体尖锐细致,在遥感,医疗诊断,智能监控等方面有很多应用。HR图像可以提供比其低分辨率(LR)对应物更多的细节,并且这些细节在许多应用中可能是关键的。然而,由于生成,存储和传输高质量图像的限制,在许多情况下,面部图像以LR形式出现,例如由监视摄像机捕获的LR人脸图像。因此,为了获得更多细节,有必要从一个或一系列LR图像推断HR图像。这个技术被称为超分辨率(SR)。它在计算机视觉和机器学习方面是一个非常活跃的研究领域,因为它提供了克服低成本电子成像系统(例如,手机摄像头和监视摄像头)的固有分辨率局限性以及更好地利用增长能力 的HR显示器(例如HD LCDs)。目前,图像SR方法可以分为三类:功能插值方法,基于重构的方法和基于学习的方法。
这三类图像SR方法都有其优点和局限性:(1)功能插值方法和基于重建的方法的重构保真度优于基于学习的方法,而功能插值方法和基于重建的方法的放大比率小于基于学习的方法;(2)与基于重建和基于学习的方法相比,功能插值方法在计算上更加高效并且它们简单且易于实现。(3)功能插值方法和基于重构的方法主要集中在探索来自内部例子(即输入LR图像)的先验信息,而基于学习的方法使用外部例子(即一组通用的示例图像)作为附加信息 以预测HR图像的缺失(高频)信息。
动机和贡献。结合以上三种方法的优点,本文提出了一种新的人脸图像SR方法,即先用局部结构进行平滑回归(简称SRLSP)。 一方面采用重构约束来保证重建图像与输入图像的一致性; 另一方面,它自适应地利用人脸图像SR任务的外部和内部例子。更具体地,它使用训练集中的面部图像的统计特性(通过平滑回归)以及输入LR人脸图像的面片结构信息(通过局部结构优先(LSP))来推断缺失的HR像素信息。(是如何实现平滑回归和局部结构优先的?)图1给出了所提出的SRLSP算法的示意图。 在训练阶段,我们提取LR块(图示为黑色圆圈)和缺失的HR像素(图示为白色圆圈)以形成训练对。在测试阶段,我们引入一个平滑的回归模型和LSP来构建一个LR块和丢失的HR像素之间的关系。因此,可以通过学习的SRLSP模型来预测丢失的HR像素信息。 所提出的方法具有以下截然不同的特征:
- 我们选择通过引入权重矩阵来为每个位置块学习平滑映射,而不是学习整个脸部的线性回归函数。 因此,可以将学习的平滑回归调整为输入的LR人脸图像的特定区域(位置块)。
- 通过利用人脸之前的结构,与仅从外部训练集学习统计特性的方法相比,所提出的方法能够从外部和内部例子获得更合理和可靠的重建结果。
- 传统的基于局部斑块表示的人脸SR方法使用“相同表示”的强正规化进行学习。 在我们的方法中,我们放宽了“相同表示”假设来学习LR和HR图像之间的回归关系,从而为学习到的回归函数提供了更大的灵活性。
- 由于我们提出的方法是基于插值的方法,因此它满足了确保重建的HR图像和输入LR图像之间一致性所需的所有重建约束。 因此,重建结果是可信的。
本文的结构
本文的其余部分安排如下。 第二节是相关工作。 第三节介绍了提出的SRLSP方法。 我们在第四部分详细介绍了所提出的方法和先前的工作之间的区别。 第五节给出了实验结果和分析。最后,第六节总结了本文。
相关工作
在本节中,我们将回顾一些有关通用和领域特定图像SR以及同时人脸SR和识别方法的相关工作。
功能插值方法在输入LR图像上应用固定多项式近似模型或自适应结构内核来估计HR网格中的未知像素并获得经处理的图像。 然而,在许多情况下,重建图像由于混叠,阻塞和模糊伪像而不令人满意。
另一方面,基于重建的方法通常使用同一场景的一组连续的LR帧来生成一个或一系列HR图像。 准确的图像配准是基于重建的SR方法成功的关键一步。 另外,正如Lin等人在工作中所报告的,在实际情况下,如果去噪和配准不够好,基于重建的方法的放大因子被限制在不超过2个。最近,基于学习的SR方法受到了很大的关注。 他们假设从训练数据集中可以预测LR图像中丢失的高频细节。 这些方法可根据其任务大致分为两大类:通用图像SR和域特定图像SR。虽然通用SR算法针对各种图像开发,其中前景通常基于原始图像属性(例如边缘和段),但特定领域的图像SR算法专注于特定类别的图像,例如面部,场景和图形艺术品。 通过利用额外的训练集,基于学习的SR方法展现出强大的SR能力。本文综述了当前人脸图像的研究进展。本文主要研究人脸图像的SR问题。 为了预测高频信息,特定领域的图像SR算法旨在学习HR和LR图像或来自训练集的系数之间的关系。 具体来说,它们可以进一步分为两类:基于全局人脸的参数估计方法和基于局部块的恢复方法。基于全局人脸的参数估计方法将人脸图像作为一个整体,利用主成分分析(PCA)局部保持投影(LPP),非负矩阵分解(NMF)和典型相关分析(CCA)等经典人脸模型对其进行建模。 这些方法很容易实现,它们的性能相当不错。 但是,他们往往无法恢复一张脸的细节。
局部基于块的恢复方法能够通过将图像分解成小块来增强训练集的表示能力。 可以推断目标HR图像的隐式编码(通过局部,协同和稀疏地表示输入LR块)或明确回归。
基于隐式编码的方法假设来自LR图像的图像块和它们的HR对应体共享相似的局部几何(流形假设)。 因此,HR空间中的斑块可以使用与LR空间相同的权重重建为局部邻居的加权平均值。 例如,Chang等人 通过K-NN搜索发展了一种基于邻域嵌入的超分辨率方法,并由Jiang等人通过引入Tikhonov正则化得到了改进。为了提高表示能力,稀疏性和局部正则化术语已被纳入补丁编码目标函数中。 然而,由于实践中LR和HR图像之间的“一对多”映射,当歧视假设LR和HR图像贴片共享相同表示时,这些基于隐含编码的方法可能表现不佳。为了缓解这个问题,我们先前提出的局部约束迭代邻域嵌入方法通过考虑LR块和HR块流形而不是仅考虑一个流形(即,LR块流形)来探索局部结构,与传统相比提高了性能 邻居嵌入方法。此外,这些基于回归的方法直接模拟LR和HR块对之间的映射函数。例如,Huang等人提出通过线性回归来模拟LR和HR图像之间的关系,以获得良好结果。
同时面对SR和识别。最近,已经引入了一些关于人·······脸识别任务的人脸图像SR算法。 例如,Li等人提出耦合局部保持映射以将LR和HR人脸图像投影到统一的特征空间上。 基于多流形假设,Jiang等人提出了一种匹配低分辨率人脸图像的耦合判别多流形分析方法。为了同时识别和超分辨LR面部,Hennings Yeomans等人在正则化公式中表示LR和HR图像之间的约束。 Jian等人提出了一种基于奇异值分解(SVD)的同步SR和识别方法.Yang et al。 提出了一种基于稀疏表示的联合人脸SR和识别方法以及一个学习者特定的人脸超分辨率模型。
提出的方法
图像降解模型
为了全面分析图像重构问题,首先要制定一个观察模型,将原始HR图像与观察到的LR图像相关联。具体地说,让
Lh
L
h
和
Ll
L
l
分别表示HR和相应的LR面部图像。原始HR图像
Lh
L
h
和LR观察值
Ll
L
l
之间的关系可以通过以下表达式在数学上建模:
其中B是HR图像的模糊过滤器,D是表示抽取算子的矩阵,并且n是考虑成像噪声的加性高斯白噪声。在这项工作中,我们只考虑模型的一个特例。其中模糊运算符和噪声项被忽略。然后,图像退化模型变为
局部结构优先(LSP)
给定一个LR图像观察值 Ll L l ,有无穷解 Lh L h 满足方程(2)。换句话说,许多HR人脸图像会在图像退化后产生相同的LR人脸图像。这是HR和LR图像之间的“多对一”映射,不能在没有附加约束的情况下进行颠倒。在数学上,它是一个不适合的反问题,并没有一个独特的解决方案。 为了获得合理的HR图像 Ih I h ,应该使用诸如平滑度,形状语义和稀疏表示等先验约束。在本文中,我们假设像素属于不同的类别,例如具有不同方向和平坦区域的物体边缘,并且每类像素都需要特定处理。特别地,对于一类高度结构化的对象,例如人脸,虽然它们是 与全局角度不同,两个精确对齐的面之间存在显着的局部相似性。 因此,我们引入一种新的框架,利用面部图像的局部结构特征作为约束构建面部图像插值模型。人脸高度结构化。 在裁剪(大小相同)和对齐(通过眼睛中心)时,所有面部图像上相同位置的块将具有相同的局部结构。该结构的特征在于 patch(x,y) p a t c h ( x , y ) 中的LR像素与缺失的HR像素之间的关系,
为了解决使用LSP的面部图像插值问题,我们将该程序分成两步。 首先,对于每个块,我们借助一组LR和HR训练人脸图像块对学习由 F(x,y) F ( x , y ) 表征的LSP, {IiL}Ni=1 { I L i } i = 1 N 和 {IiH}Ni=1 { I H i } i = 1 N ,其中N表示训练集大小。LR图像块和缺失的HR像素由两组表示, {pi0(x,y)}Ni=1 { p 0 i ( x , y ) } i = 1 N 和 pi1(x,y)}Ni=1 p 1 i ( x , y ) } i = 1 N , 1≤x≤u 1 ≤ x ≤ u , 1≤y≤v 1 ≤ y ≤ v , u u 和分别是行和列中的块数量。接下来,我们使用插值函数 F(x,y) F ( x , y ) 从LR输入 ItL={pt0(x,y)} I L t = { p 0 t ( x , y ) } 来插入HR人脸图像 ItH={pt1(x,y)} I H t = { p 1 t ( x , y ) } 这里,下标“t”用于区分测试样本和训练样本。
通过使用局部结构优先的平滑回归的面部图像插值(SRLSP)
定义回归函数的最简单方法是使用线性回归,如下所示:
尽管高度结构化的人脸彼此非常相似,但不同的人脸总会存在细微差别,并且 F(x,y) F ( x , y ) 不是严格线性的。 每个样本可能有自己的最佳 F(x,y) F ( x , y ) 。 因此,我们引入一个局部线性回归模型,并通过对训练样本进行加权,根据它们与测试样本的接近程度,为每个测试样本拟合不同的线性回归。
实现局部线性回归的常用方法是在测试样本周围采用固定宽度的窗口,并仅包含窗口内的样本。 这本质上是一个简单的0/1硬阈值加权。 一般来说,权重随着距离的变化更平稳,从较大的值开始,然后逐渐趋近于零,效果会更好。 现在我们有顺畅的回归模型,它在每个色块位置 (x,y) ( x , y ) 上训练LR像素(特征)和缺失HR像素(结果)之间的关系(注意为了表示方便,我们放下色块位置项 (x,y) ( x , y ) 从现在开始)如下:
我们提出的平滑回归模型可以看作是线性回归的核心版本,权重与核心成正比, wi(Pi0)⊆K(Pi0,Pt0) w i ( P 0 i ) ⊆ K ( P 0 i , P 0 t ) 。 在不失一般性的情况下,我们可以将比例常数设为1.在本文中,我们将权重定义如下:
wi w i 决定数据集中每个观测值对最终参数估计的影响程度。 从图2中可以看出,与感兴趣样本最相似的样本被赋予比最不相似的样本更多的权重(即,当 dist(Pi0,Pt0) d i s t ( P 0 i , P 0 t ) 很小时, w(Pi0)就很大 w ( P 0 i ) 就 很 大 。具体来说,当 α α 设置为0,对于所有训练样本, wi w i 等于1。然后提出的方法减少到我们以前提出的方法(Face hallucination with shape parameters projection constraint)。
在一些矩阵代数性质之后,方程 (5)可以用下面的矩阵形式重写:
其中 ∥A∥2F ‖ A ‖ F 2 是F范数( ∥A∥2F=tr(AAT) ‖ A ‖ F 2 = t r ( A A T ) ), λ λ 是平衡重建误差的贡献和映射函数A的简单性的正则化参数。在这篇中,我们在所有实验中将正则化参数 λ λ 设置为 10−6 10 − 6 。根据 ∥X∥w ‖ X ‖ w 和 ∥A∥2F ‖ A ‖ F 2 的定义,我们可以将等式9改写为
通过设置 ∂F(A)∂A=0 ∂ F ( A ) ∂ A = 0 ,得到下个等式:
相关工作
请注意,我们提出的SRLSP方法类似于Huang等人提出的基于局部线性变换(LLT)的方法和我们以前提出的基于局部约束表示(LcR)的方法。 然而,LLT,LcR和提出的SRLSP方法之间存在本质区别。
我们工作的重要见解在于LSP的平滑权重,LLT和LcR都学习了LR和HR训练块之间的关系,而我们提出的SRLSP方法考虑了人脸的LSP,并且学习了LR块与缺失的HR像素之间的关系(而不是整个HR块)。换句话说,我们同时利用外部和内部优先进行人脸图像SR任务。为了学习这种关系,LcR使用基于隐式编码的技术,并假定LR和HR图像块具有相同的表示形式,而LLT和我们提出的SRLSP方法直接构造回归模型,并避免利用“相同表示”的强正则化学习。我们提出的SRLSP方法并不是学习LLT中每个位置块的线性回归关系,而是通过对训练样本进行加权,基于它们与测试样本的接近程度来对每个测试样本进行不同的线性回归,即将1-0根据距离进行平滑加权的硬阈值加权。
实验结果
在本节中,我们描述了为评估所提出的用于人脸图像SR的方法的有效性而进行的大量实验的细节。我们将我们的方法与几种最先进的算法进行比较,并使用峰值信噪比(PSNR)和结构相似性(SSIM)指数来评估FEI人脸数据库上不同方法的性能,这些方法将在下面几个小节介绍。
总结
我们提出了一种高效和有效的面部图像插值方法的新方法,即用局部结构优先(SRLSP)进行平滑回归。它结合了三种不同类别方法的优点,即基于插值的方法,基于重建的方法和基于学习的方法,从而导致有前途的SR重建结果。开发的SRLSP方法将每幅人脸图像分割成小图像块,然后学习LR图像块和缺失的HR像素信息之间的关系,可以将其视为局部结构优先(LSP)。然后使用该LSP来预测LR观测斑点的缺失HR像素信息。
有一些问题需要在未来进行研究:请注意,重叠块映射和重构非常耗时,这在某些实际应用中阻碍了我们的方法,例如实时人脸识别和3D人脸合成。 由于每个目标HR块重建的独立性,我们可以通过并行计算来加速算法。在本文中,我们专注于开发正面人脸图像SR方法。 然而,当LR观察脸部处于狂野状态,即任意姿势,各种肤色和极端环境照明时,我们如何能够在野外高超解决脸部图像是另一个未解决的问题。
一般先验与领域特定的先验:从面部训练样本中学习的先验信息比从一般训练样本中获得的信息(如房屋,植物,动物等)更有效。 Bicubic插值,NEDI [11],SAI [12]和GPR [59]是为普通图像设计的一般图像SR方法,其余方法(EigTran [25],LLT [31],LSR [38],SC [33 ],LcR [36])是从面部训练样本中学习先验信息的方法。 前者的表现比后者差得多。
全局与局部建模:基于位置补丁的方法优于全局面部方法。 Wang等人的全球EigTran [25]可以通过PCA分解对整个人脸图像进行整体建模来捕获人脸的全局结构;但是,它也会导致重建精度低,面部轮廓周围结果不令人满意。通过分解一个完整的 根据位置将人脸图像分成较小的斑块,基于位置斑块的模型具有比全局模型更高的重建精度。
为什么要进行平滑加权?:平滑加权策略对于建模LR和HR训练集之间的关系非常重要。 这可以通过我们以前提出的LcR [36]和我们提出的SRLSP方法来证明。 LCR [36]利用平滑加权策略进行补丁表示,并给训练样本赋予不同的自由度(即通过对训练样本进行加权,基于它们与测试样本的接近程度),而SRLSP惩罚回归测量的权重为 随着距离的变化更顺畅。请注意,NE [34]和ANR [20]也考虑邻域信息,这两种方法本质上是简单的0/1硬阈值加权。 SRLSP(A = 0)不考虑平滑加权,其性能比SRLSP差。 这也证明了平滑加权策略的优势。
先验人脸结构非常重要:除了纳入平滑加权策略(可视为从训练集中学习的统计特性)之外,利用结构信息对于人脸图像SR问题也至关重要。 作为一个高度结构化的对象,人脸具有显着的局部相似性。 因此,可以使用结构信息来指导人脸图像的重构,从而得到更可信和可靠的重建结果。