深层面部恢复综述:降噪、超分辨率、去模糊、伪影去除

A Survey of Deep Face Restoration: Denoise, Super-Resolution, Deblur, Artifact Removal

人脸恢复(FR)旨在从低质量(LQ)输入图像中恢复高质量(HQ)人脸,这是低级计算机视觉领域中的一个特定领域的图像恢复问题。早期的人脸恢复方法主要使用统计先验和退化模型,但这些方法在实践中难以满足实际应用的要求。近年来,人脸恢复在步入深度学习时代后取得了巨大进展。然而,系统研究基于深度学习的人脸恢复方法的工作却很少。因此,本文全面回顾了深度学习技术在人脸恢复方面的最新进展。具体而言,我们首先总结了不同的问题表述,并分析了人脸图像的特点。其次,我们讨论了人脸恢复面临的挑战。针对这些挑战,我们全面回顾了现有的人脸恢复方法,包括基于先验的方法和基于深度学习的方法。然后,我们探讨了人脸恢复任务中开发的技术,包括网络架构、损失函数和基准数据集。我们还对具有代表性的方法进行了系统的基准评估。最后,我们讨论了未来的研究方向,包括网络设计、评估指标、基准数据集、应用等。我们还为所有讨论的方法提供了一个开源存储库,其网址为https://github.com/TaoWangzj/Awesome-Face-Restoration

1 引言

面部修复是一个特定领域的图像修复问题,是图像处理与计算机视觉领域的经典任务。面部修复旨在从降质的面部图像Ilq中恢复出高质量的面部图像Ihq,其中Ilq = D(Ihq) + nδ,D是与噪声无关的降质函数,nδ是加性噪声。根据降质函数D的不同形式,面部修复任务可以分为以下五个主要类别:

(1)面部去噪,指去除面部图像中包含的噪声(如高斯噪声)[1][2]。

(2)面部去模糊,指从因相机抖动或物体运动等多种因素导致的模糊面部图像中恢复出潜在的清晰面部图像[3][4]。

(3)面部超分辨率(也称为面部幻觉[5]),旨在提高低分辨率面部图像的质量和分辨率[6][7]。

(4)面部伪影去除,指从在图像存储和传输过程中因有损压缩而产生伪影的低质量面部图像中恢复出高质量的面部图像[8][9]。

(5)盲面部修复,指在不了解降质类型或参数的情况下,从低质量面部图像中恢复出高质量的面部图像[8][9]。

图1展示了由这些形式的降质引起的示例低质量面部图像,它们不仅影响视觉质量,还影响下游计算机视觉算法的性能。因此,面部修复具有广泛的应用,包括面部识别[10]、隐私保护[11]和自动驾驶[12]等。

早期的面部修复方法主要关注统计先验和降质模型,这些方法大致可以分为基于贝叶斯推断的方法[6][13]、基于子空间学习的方法[14][15]、基于稀疏表示的方法[16][17]等。近年来,随着深度学习的发展和大规模数据集的可用性,基于深度学习的方法越来越受到关注。因此,文献中提出了大量基于深度学习的面部修复方法。一般来说,基于深度学习的面部修复方法采用不同的技术来构建最先进的网络。所采用的技术主要集中在以下几个方面:不同的深度学习架构[7][18][19][20]、不同的面部先验[21][22][23][24]、不同的损失函数[21][25][26][27]、不同的学习策略[28][29]等。尽管近年来深度学习解决方案在面部修复研究中占据主导地位,但关于深度学习技术在面部修复方面的深入和全面调查仍然缺乏。因此,本文对面部修复任务的深度学习方法进行了全面和系统的综述。

1.1 与其他相关综述的差异

迄今为止,关于面部修复任务的综述相对较少,尽管有一些与面部修复主题相关的综述,如表1所示。我们将其分为三组,并在下文中讨论它们之间的差异。

(1)第一组综述[30]、[31]、[32]、[33]、[34]旨在讨论使用深度学习技术的通用图像修复。例如,在[30]、[31]、[32]、[33]中,它们分别讨论了图像修复中特定任务(如去雨、去噪、超分辨率和去模糊)的常见原因,并回顾了不同的基于深度学习的方法。[34]更侧重于回顾包括图像去模糊、去噪、去雾和超分辨率在内的通用图像修复任务的深度学习方法。

(2)第二组综述[35]、[36]、[37]、[38]专注于回顾传统面部超分辨率方法的进展和发展,如基于子空间学习的方法[14]、[15]和基于稀疏表示的方法[16]、[17]。

(3)第三组综述[39]、[40]回顾了使用深度学习技术的面部超分辨率领域的最新进展。尽管这一主题与我们的主题相关,但它们仅专注于面部超分辨率这一特定任务,其范围比我们的研究更窄。不同的是,我们的工作系统而全面地回顾了基于深度学习的面部去噪、面部去模糊、面部超分辨率、面部伪影去除和盲面部修复任务的最新进展。

1.2 我们的贡献

本工作系统而全面地回顾了近年来面部修复技术的研究进展。本综述的分类如图2所示。我们从不同方面进行了这项调查,包括问题定义、现有挑战、最先进的方法、技术发展、性能评估和未来方向。本文的贡献总结如下:

(I)我们讨论了面部修复中的主要降质模型、常用的评估指标以及面部图像与自然图像的不同特征。

(II)我们探讨了面部修复中存在的挑战,并全面概述了现有的基于深度学习的面部修复方法。

(III)我们深入分析和讨论了这些方法的技术发展,涵盖了网络架构、基本模块、损失函数和基准数据集。

(IV)我们在流行的面部基准数据集上对代表性方法进行了基准测试研究,这将有助于未来的实验比较。

(V)我们分析了面部修复任务的开放挑战,并讨论了其未来方向,以指导该领域未来的研究。

1.3 本综述的组织结构

本文的其余部分组织如下:

在第2节中,我们依次介绍了五种常见的面部修复任务的问题定义、图像质量评估指标以及面部图像的特点。

在第3节中,我们讨论了面部修复面临的挑战,并分析了现有面部修复方法如何解决这些挑战。

第4节回顾了深度面部修复的技术发展,包括网络架构、基本模块、损失函数和数据集。

第5节报告了现有方法的实验结果。

第6节我们讨论了面部修复的未来发展方向。

最后,第7节对本文进行了总结。

2 背景

2.1 问题定义

图像在形成、传输和存储过程中会发生降质。对于现实世界中的面部图像,降质可能以多种形式出现,包括加性噪声、空间不变或变模糊、混叠和压缩伪影。一般来说,面部图像降质模型可以表示为:

Ilq = D(Ihq; nδ),(1)

其中Ilq是低质量面部图像,D是指与噪声无关的降质函数,Ihq是对应的高质量面部图像,n通常表示具有噪声水平δ的加性高斯白噪声。通过指定不同的D,可以得到不同的降质情况。例如,当D是恒等函数时,为噪声降质[41]、[42];当D是卷积/平均操作时,为模糊降质[33]、[43];当D是卷积和下采样操作的组合时,为低分辨率降质[44]、[45]、[46]、[47];当D是JPEG压缩操作时,为伪影降质[48]、[49];当D是各种因素的组合时,为混合降质[8]、[9]。

面部修复(FR)是指从降质的低质量面部图像中恢复出高质量面部图像的过程。即,它旨在找到等式(1)中降质模型的逆过程,表示为:

Ihq = D^(-1)(Ilq; nδ),(2)

其中D^(-1)是面部修复模型。如果提供了降质因素,则FR任务被视为非盲面部修复,如面部去噪、面部去模糊、面部超分辨率和面部伪影去除。否则,FR任务被称为盲面部修复。接下来,我们将详细介绍FR中子任务的具体问题定义,其中主要介绍了一些常用的降质模型。

面部去噪。这个子任务专注于从观察到的带噪声的面部图像中去除噪声。带噪声的面部图像通常是通过加性模型构建的,表示为:

In = Ic + nδ,(3)

其中Ic、In和nδ分别代表清晰的面部图像、带噪声的面部图像和具有噪声水平δ的加性高斯噪声。面部去噪的目标是找到降质模型的逆过程。

面部去模糊。面部模糊是捕获的面部图像中常见的问题。它主要包含由对象与相机之间的相对运动引起的运动模糊[50]和由目标与相机焦点之间的不对准引起的失焦模糊[51]。面部去模糊主要考虑运动模糊,它可以建模为:

Ib = kσ * Is + nδ,(4)

其中Ib是模糊的面部图像,Is是清晰的面部图像,kσ是模糊核,*是卷积操作,nδ是加性噪声。面部去模糊的目标是获得降质模型的逆函数,从而生成清晰的面部图像。

面部超分辨率。作为特定领域的图像超分辨率问题,面部超分辨率是指增强低分辨率(LR)面部图像的分辨率,并生成具有丰富细节的高分辨率(HR)面部图像。降质模型表示为:

Ilr = (Ihr * kσ) ↓s + nδ,(5)

其中Ilr是低分辨率面部图像,Ihr是高分辨率面部图像,kσ是模糊核,*是卷积操作,nδ是噪声,↓s是具有尺度因子s的下采样操作。在面部超分辨率任务中,s通常设置为2、3、4和8。基于降质,面部超分辨率旨在模拟降质模型的逆过程,并从低分辨率面部图像中恢复出高分辨率面部图像。

面部伪影去除。在实际应用中,为了节省存储空间和带宽,广泛采用有损压缩技术(如JPEG、Webp和HEVC-MSP)。然而,有损压缩容易导致信息丢失,并为记录的面部图像引入不希望的伪影。给定一张高质量面部图像Ihq,其压缩过程如下:

Ilq = J(Ihq) + nδ,(6)

其中Ilq是压缩后的面部图像,J表示图像压缩。由于JPEG是图像压缩中最广泛使用的方式,因此研究人员在面部伪影去除任务中更多地关注这种类型的降质。根据图像压缩过程,面部伪影去除致力于学习降质模型的逆过程,并生成高质量的面部图像。

盲面部修复。与专注于单一类型的降质不同,盲面部修复旨在处理野外严重降质的面部图像。在此任务中,面部图像的降质是复杂的,是噪声、模糊、低分辨率和JPEG压缩伪影的随机组合。盲面部修复的降质模型可以定义为:

Ilq = {JPEGq((Ihq * kσ) ↓s + nδ)} ↑s,(7)

其中*是卷积操作,kσ是模糊核,JPEGq是具有质量因子q的JPEG压缩函数,↓s是具有缩放因子s的下采样操作,nδ是噪声,↑s是具有缩放因子s的上采样操作。盲面部修复的目标是通过模拟上述降质模型的逆过程来恢复高质量的面部图像。

2.2 图像质量评估

准确评估恢复图像的质量非常重要。一般来说,图像质量评估可以大致分为两类:主观评估和客观评估。主观评估方法与人类判断相关。一个代表性的指标是平均意见得分(MOS)[52],其中邀请人类评分者对观察到的图像进行视觉评分。然而,这种方法昂贵且耗时。因此,人们开始考虑客观评估。在面部修复任务中,客观评估指标可以大致分为全参考、无参考和任务驱动指标。

全参考指标主要通过测量恢复后的面部图像与其对应的真实图像之间的差异来评估图像质量。在面部修复(Face Restoration,FR)任务中使用的典型全参考指标包括峰值信噪比(PSNR)[53]、结构相似性(SSIM)[54]、多尺度结构相似性(MS-SSIM)[55]、弗雷谢特初始距离(FID)[56]和学习的感知图像补丁相似性(LPIPS)[57]。PSNR更关注两个图像中每个像素之间的差异。与PSNR相比,SSIM在测量相似性时考虑了图像的亮度、对比度和结构。基于SSIM,提出了MS-SSIM指标。它首先将图像划分为多个窗口,然后计算每个窗口的SSIM,并对这些SSIM值取平均以获得MS-SSIM。与PSNR、SSIM和MS-SSIM相比,FID和LPIPS能够评估面部图像的视觉质量。与倾向于平滑结果且与人类感知不一致的像素级指标(PSNR、SSIM和MS-SSIM)相比,FID和LPIPS旨在评估恢复图像的感知真实感。

与依赖真实图像的全参考指标相比,无参考指标仅通过恢复后的图像即可直接评估图像质量。许多无参考指标可用于面部修复,如盲图像质量指数(BIQI)[58]、BLINDS2[59]、盲/无参考图像空间质量评估器(BRISQUE)[60]、无参考图像质量评估的CORNIA框架(CORNIA)[61]、失真识别图像视觉完整性评估器(DIIVINE)[62]、自然图像质量评价器(NIQE)[63]和结构相似性误差指数(SSEQ)[64]。其中,NIQE指标在文献中被广泛采用[9]、[19]、[65],用于测量真实面部图像恢复结果的自然度。

此外,作为特定领域的图像修复任务,已使用了许多任务驱动指标,如身份精确度(iPrecision)[66]、身份召回率(iRecall)[66]、局部线性嵌入(LLE)[8]、退

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值