《OCCLUSION-AWARE GAN FOR FACE DE-OCCLUSION IN THE WILD 》

最新推荐文章于 2023-12-29 13:55:22 发布

夏荷影

最新推荐文章于 2023-12-29 13:55:22 发布

阅读量1.4k

点赞数 3

分类专栏：生物识别文章标签：计算机视觉机器学习

原文链接：https://ieeexplore.ieee.org/document/9102788

版权

生物识别专栏收录该内容

3 篇文章

订阅专栏

《用于自然状态下人脸去遮挡的遮挡发现GAN》论文翻译

声明：本篇论文原作者为Jiayuan Dong1, Liyan Zhang1,∗, Hanwang Zhang2, Weichen Liu2 dongjiayuan99@gmail.com, zhangly84@126.com, 1Nanjing University of Aeronautics and Astronautics;{hanwangzhang, liu}@ntu.edu.sg, 2Nanyang Technological University, Singapore。本文仅做学习用途。

摘要：
被遮挡的人脸——作为现实生活中常见的场景——对大多数人脸识别系统都有显著的负面影响。现有的方法试图通过一个单独的生成对抗性网络(GAN)来消除遮挡，该网络无法识别遮挡，因此很难推广到多种类型遮挡类型，例如不同位置的不同对象。为此，我们提出了两阶段的遮挡-识别 GAN(OA-GAN)，其中第一个GAN用于分离遮挡，这将作为第二个GAN的附加输入，用于合成去遮挡的脸。这样，我们的两阶段模型可以处理自然状态下不同的遮挡，这自然更容易解释，因为它对遮挡物体的感知。在合成和现实世界数据集上的广泛实验验证了两阶段OA-GAN设计的优越性。此外，通过将生成的去遮挡人脸应用于面部表情识别(FER)系统，我们发现我们的两阶段去遮挡过程显着地提高了在遮挡情况下FER的准确性。

一. 引入
遮挡导致严重的信息丢失，阻碍最先进的人脸识别算法做出准确的决策，这可能会导致关键的监视失败，如果一个人故意覆盖脸。解决该问题的方法是在向下游算法提供面部图像前去除遮挡。
存在挑战：不同的形状，混合类型，位置不固定以及其他无妨预测的遮挡属性。
过去方法：直接应用单级GAN桥接被遮挡的输入和去遮挡后输出的脸。缺陷：这些方法只有在一定的约束遮挡下才能很好地工作，如矩形形状，随机噪声等，留下更复杂的现实生活遮挡未解决。这些复杂的遮挡阻碍了目前的方法从推广到自然状态下的面部。
在这里插入图片描述
我们提出两级遮挡识别GAN，如图1，来消除任意面部遮挡，使去遮挡过程更加透明。在其中，两级GANs有不同工作，第一个生成器G1用于合成遮挡的图像（分离遮挡），第二个合成器G2用于合成去遮挡的图片。传统的人脸完成方法试图通过一个阶段直接恢复无遮挡人脸，如图一（a）。相反，我们的G1首先分离出遮挡，再将其作为G2的输入来生成更精确的未遮挡图像。
为了显示遮挡区域合成像素的质量，我们进行了一个额外的实验，以验证合成的无遮挡图像可以提高遮挡下面部表情识别(FER)的准确性，也就是说，去遮挡过程保留了大部分表达信息，并保持了与周围环境的潜在联系，从而支持遮挡下的面部表情识别等下游任务
主要贡献为：
（1）提出OA-GAN是为了透明地去除真实世界人脸图像的面部遮挡。它还为人脸去遮挡提供了一种新的范式，使整个过程更具可解释性.
（2）在人工和真实世界数据集上的定性和定量结果表明，我们的网络取得了更好的性能。我们发现，第一个发生器在整个去遮挡过程中起着非常重要的作用。
（3）实验结果表明，我们的OA-GAN可以显著提高遮挡下面部表情识别的准确性，这意味着它可以应用于进一步的研究，如在自然状态下的FER。

二、相关工作
人脸修复是使用周围的像素来填充具有部分遮挡的给定人脸图像的缺失内容，这是与我们的去遮挡工作类似的任务。由于深度神经网络的变革，大量的人脸修复工作得到了研究，并取得了优异的性能。Cai等[8]提出了一种FCSR-GAN用于联合面部修复以及超分辨率。用这种方法，生成的图像可以获得更高的分辨率。Li等[9]使用语义正则化通过保持拓扑结构来保持生成的人脸的和谐。Zheng等[10]提出了一个框架，为单个蒙面输入生成具有可信内容的多个不同解决方案。
然而，这些方法很注重如何使生成的人脸带有活性，而忽视了提高网络的去遮挡能力。它们大多是在有约束遮挡的面部图像上训练的。因此，现实世界的图像必须通过手动覆盖真实遮挡的约束遮挡进行预处理，这是对信息的浪费，也根本不是自动的。

三、OA-Gan：一种两阶段遮挡感知的Gan
在这里插入图片描述

在这里插入图片描述
开源网址：https://github.com/DongJiayuan/De-occ

3.1整体架构：
我们提出的OA-GAN框架旨在消除任意遮挡和合成非遮挡面部图像。网络由两个生成器(即G1和G2)和两个鉴别器(即D1和D2)组成)如图三。
为了使生成器更加具有鲁棒性，一种U-Net架构[11]用于两个生成器的编解码网络，此外，还采用马尔可夫判别器对贴片尺度上的假图像进行了惩罚[12]而不是全局假/真实标量。
给出一个三重态{x,y,z}，其中x表示蒙面人脸图像，y代表遮挡图像，z代表原始的面部图像（如图2）。透明的面部去遮挡过程可以分为以下两步：
（1）遮挡合成： 可以认为G1是遮挡生成器。给定一个被遮挡的面部图像x作为输入，用遮挡图像y训练，G1可以分离x的遮挡。合成的遮挡Iocc可以表示为：
Iocc = G1(x), (1)
（2）无遮挡面部合成： 可以认为G2是一个网络，在检测到的遮挡Iocc的帮助下，去除遮挡，合成无遮挡人脸图像。合成的无遮挡图像可以表示为，
I = G2(x, Iocc) (2)
3.2遮挡合成：
为了准确地合成遮挡图像，在生成器G1和鉴别器D1之间采用条件对抗性学习。其中G1以被遮挡的面部图像x为输入，D1以遮挡图像与被遮挡的图像串联为输入。在这种对抗性学习过程中，D1负责区分真实的遮挡和假的遮挡。 “real”一词不仅意味着它看起来是否真实，还表示它是否与图像x匹配。对抗性损失可以表示为
LcGAN (G1, D1) = Ex,y∼pd(x,y) [log D1(x, y)]+ Ex∼pd(x) [log(1- D1(x, G1(x)))] (3)

为了恢复像素级信息并保持与遮挡的相似性，我们引入了像素级损失。因为研究表明L1范数比L2范数在图像清晰度上表现更好[12], 我们采用L1范数作为输入图像与目标图像之间距离的度量，以避免模糊。因此，像素损失被定义为
LL1(G2) = Ex,y∼pd(x,y) [|| y- G1(x)||1] (4)
为了生成逼真的图像，网络需要玩一个min-max博弈来获得最优的生成器。理论上，最终生成器可以定义为
G1*=arg minG1maxD1LcGAN(G1,D1)+λ1LL1(G1) (5)

3.3无遮挡图像合成
对于图像合成部分，生成器G2接受被遮挡面部x和遮挡y作为输入，而D2以与遮挡图像连接的无遮挡图像作为输入。对抗性损失可以表示为
LcGAN (G2, D2) = Ex,y∼pd(x,y) [log D2(x, y)]+ Ex∼pd(x) [log(1- D2(x, G2(x)))]
为了保持目标的内容，提出了另一个用L1范数测量的像素级损失，其定义为
LL1(G1) = Ex,y∼pd(x,y) [|| z- G2(x,G1(x))||1]
理论上，最终生成器可以定义为
G1*=arg minG2maxD2LcGAN(G2,D2)+λ2LL1(G2)

四、实验：

4.1数据集：

面部数据集。我们在基于CK+和CelebA的两个合成数据集上评估了所提出的OA-GAN。扩展的Cohn-Kanade数据集(CK)[13]是一个用于动作单元和情感识别的公共基准数据集。它包括123个受试者的总共593个序列。序列范围从中性到峰值表达。我们利用每个序列的开头三帧和结尾三帧作为非遮挡图像。CelebFaces Attributes(CelebA)数据集[14]是一个具有200K以上名人图像的大规模人脸属性数据集,每个都有40个属性注释。该数据集的图像涵盖了大的姿态变化和背景杂波。该数据集可作为人脸属性识别、人脸检测、地标定位、人脸编辑和人脸合成的训练和测试集。

遮挡图像。从互联网上收集了大约1800幅可能的遮挡图像，使用了44个关键词，如太阳镜、帽子、围巾、电话、饮料、苹果、手等。所有这些遮挡都是随机形状、位置和大小使用的。

4.2实施细节:
CelebA数据集结合细节。 我们从CelebA数据集和遮挡图像中生成四组图像集合，如表1所示。这些集合之间的区别是模型是否看到了人脸或遮挡。我们将模型没有看到过的脸或遮挡命名为新脸或新遮挡。在这些集合中，Real-World集合由属性注释选择，比如“眼镜”，或手动选择，如有麦克风，手，香烟的脸。删除这些真实的遮挡图像后，CelebA中的大多数剩余图像都没有被遮挡，因此我们基于这些图像创建了训练集、新脸集和新遮挡集。
在这里插入图片描述
网络详情。 我们基于pix2pix架构构建了单级网络和OA-GAN。在OA-GAN的培训过程中，考虑到第一个生成器具有明显的实际意义，我们没有对整个网络进行联合训练。 λ1和λ2都设置为100。

4.3视觉分析
在这里插入图片描述

**合成遮挡对结果有何影响？**图四展示了在CK+和CelebA数据集上合成遮挡和无遮挡脸的结果。图五显示了从真实世界图像合成的几个失败结果。这些图像都是由我们的OA-GAN合成的。从图4和图5中，我们可以明显地意识到，合成的遮挡图像和去遮挡面基本上是互补的。我们可以从这一现象推断，合成的无遮挡图像与G1合成的遮挡高度相关。更进一步，可以注意到遮挡合成部分是通过去遮挡任务最关键和最困难的部分。
消融研究。为了验证模型的有效性，我们进行了两个实验，（a）完整的OA-GAN实验。（b）使用与我们的OA-GAN中第一个GAN相同的体系结构和设置的一级模型。我们在CelebA数据集上训练这两个模型，并在实现细节中提到的三个不同的集合上测试它。图六展示了结果。从这个图中，我们可以看到我们合成的图像在细节上更真实，当推广到现实世界集时，我们的OA-GAN在消除遮挡方面取得了更好的性能。
在这里插入图片描述

4.4定量分析
面部去遮挡率：为了评估不同模型成功去除遮挡的程度，inception v3在CelebA数据集上训练来区分面部是否被遮挡，准确度达到0.9996。然后我们将其应用于不同的图像。图7显示了结果。结果表明，与传统的单阶段方法相比，该模型成功地去除了更多的人脸遮挡。
在这里插入图片描述

PSNR和SSIM。峰值信噪比（PSNR）是对于重建质量人类感知的一种近似。结构相似性(SSIM)估计两幅图像之间的整体相似性。这两种方法都被用来量化合成的无遮挡图像和初始真实图像之间的高级语义相似性。表2和表3显示了结果。我们发现，我们的OA-GAN在PSNR和SSIM中都获得了更高的分数，这验证了我们的网络在图像质量方面具有更好的性能。
4.5 脸部表情不变
为了说明去遮挡工作对进一步的研究有积极的影响，我们以FER任务为例。在CK+数据集上训练不同的模型来识别面部表情。我们将这些模型应用于来自CK的不同面部集，以了解遮挡和去遮挡过程如何影响这些模型的感知。在这里插入图片描述
从表4中，我们可以知道遮挡对FER系统的感知有严重的危害。幸运的是，我们的去牙合过程成功地提高了在遮挡情况下FSR系统的性能，验证了去遮挡基本上是一个表情不变的过程，这意味着它可能保留部分信息，以支持未来的面部相关研究。
在这里插入图片描述
五、结论
在本文中，我们提出OA-GAN在现实世界中显式地消除面部遮挡。与传统的使用单级结构进行去遮挡人脸修复算法相比，我们的方法可以处理现实世界中不同的遮挡，合成无遮挡的人脸，并显式地显示网络对面部遮挡的理解。通过广泛的实验，我们发现遮挡发生器在整个咬合过程中起着重要的作用。额外的实验表明，去遮挡基本上是一个表情不变的过程，这意味着它可能支持未来的面部相关研究。
承认这项工作得到了中国国家自然科学基金，江苏省自然科学基金和NTU NAP M4082282，新加坡的部分支持。

六、参考文献
[1] John Wright, Allen Y Yang, Arvind Ganesh, S Shankar Sastry, and Yi Ma, “Robust face cognition via sparse representation,” IEEE transactions on pattern analysis and machine intelligence, vol. 31, no. 2, pp. 210–227, 2008. 1
[2] Joe Mathai, Iacopo Masi, and Wael AbdAlmageed, “Does generative face completion help ace recognition?,” arXiv preprint arXiv:1906.02858, 2019. 1
[3] Fang Zhao, Jiashi Feng, Jian Zhao, Wenhan Yang, and Shuicheng Yan, “Robust stm-autoencoders for face deocclusion in the wild,” IEEE Transactions on Image Processing, vol. 7, no. 2, pp. 778–790, 2017. 1
[4] Xiaohua Xie, Wei-Shi Zheng, Jianhuang Lai, Pong C Yuen, and Ching Y Suen, Normalization of face illumination based on large-and small-scale features,” IEEE Transactions on Image Processing, vol. 20, no. 7, pp.1807–1821, 2010. 1
[5] Yichen Qian, Weihong Deng, and Jiani Hu, “Unsupervised face normalization with extreme pose and expression in the wild,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp.9851–9858. 1
[6] Ligang Zhang, Brijesh Verma, Dian Tjondronegoro, and Vinod Chandran, “Facial expression analysis under partial occlusion: A survey,” ACM Computing Surveys(CSUR), vol. 51, no. 2, pp. 25, 2018. 1
[7] Mehdi Mirza and Simon Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014. 1
[8] Jiancheng Cai, Han Hu, Shiguang Shan, and Xilin Chen, “Fcsr-gan: End-to-end learning for joint face completion and super-resolution,” in 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019). IEEE, 2019, pp. 1–8. 1, 2
[9] Yijun Li, Sifei Liu, Jimei Yang, and Ming-Hsuan Yang, “Generative face completion,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 3911–3919. 1, 2
[10] Chuanxia Zheng, Tat-Jen Cham, and Jianfei Cai, “Pluralistic image completion,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 1438–1447. 2
[11] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234–241. 2
[12] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125–1134. 2, 3, 4
[13] Patrick Lucey, Jeffrey F Cohn, Takeo Kanade, Jason Saragih, Zara Ambadar, and Iain Matthews, “The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specifified expression,” in 2010 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition-Workshops. IEEE, 2010, pp. 94–101. 3
[14] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang, “Deep learning face attributes in the wild,” in Proceedings of International Conference on Computer Vision (ICCV), December 2015. 3