在CVPR2024大会召开前夕(签证被拒了,伤心),非常荣幸能与大家分享我们近期被CVPR2024会议接受的研究工作。由于我最近很忙,所以一直到现在才有了这篇博客,抱歉。在开始之前,我先给自己打个广告,我是该论文的第一作者,今年(2024年)博三,28岁,明年2025年6月份按时毕业,研究方向为图像生成和编辑,具体任务是妆容迁移,熟悉GAN和扩散生成模型,目前一作发表AAAI2022一篇,TNNLS2023一篇,CVPR2024一篇。目前我正在找工作,如果贵公司的招聘人员有面试的意愿,请邮箱联系我。看到邮件,我会马上将自己的个人简历发送到贵公司,邮箱地址在论文标题处,感谢。
先贴一下论文和代码的地址:
论文:https://arxiv.org/abs/2405.17240
代码:https://github.com/Snowfallingplum/CSD-MT
引言
先介绍一下妆容迁移的目标:
给定一对源图像和参考图像,妆容转移的主要目标是生成同时满足以下条件的图像: (1)包含从参考图像转移过来的妆容样式,如口红、眼影和腮红粉末。 (2)保留源图像的内容细节,包括身份、面部结构和背景。 简单来说,就是迁移参考图像的妆容,维持源图像的内容。
发现问题:
我们在研究了以往的妆容迁移方法之后,认为妆容迁移的难点并不在模型的网络结构,而在于没有标签,没有监督信号,就是没有成对数据。对于妆容迁移这个具体的任务,给定一对源图像和参考图像,是很难获取或者基本没法得到对应的ground truth。这就导致模型在训练过程中没有ground truth来监督。现有的方法为了解决这个问题,基本都采用了合成Pseudo Ground Truth的策略。而这种策略下,合成Pseudo Ground Truth被当作ground truth,这就导致Pseudo Ground Truth的质量尤为重要。我们认为,这种策略下模型拟合的是Pseudo Ground Truth的数据分布,而非真实的数据分布。
如图2,根据所使用的 Pseudo Ground Truth(PGT) 生成策略,以往的妆容转移方法可大致分为两类:(1) 基于直方图匹配的方法尝试将源图像中每个面部区域(如唇部、眼部和脸部区域)的颜色分布与参考脸部中相同区域的颜色分布进行对齐。然而,这种策略生成的 PGT 会忽略所有化妆风格的空间信息,而且通常会受到源图像和参考图像之间较大色差(如眼影和腮红粉)的影响。(2) 基于几何失真的方法通过扭曲参考人脸来合成 PGT,使其形状(通常由一些面部标记表示)与源图像的形状相匹配。但这种方法往往会引入不希望出现的伪影,并导致源内容信息的丢失。因此,这些低质量的 PGT 会降低上述所有方法的传输性能。虽然最近EleGANt努力通过混合策略创建更有效的 PGT,但生成的 PGT 仍然是次优的,其不精确性将严重影响最终的传输结果。
值得注意的是:直方图匹配的方法中,各个模型的网络结构差异非常大,但是可以看到最终的结果却十分接近。这更加验证了我们的猜想:妆容迁移的难点并不在模型的网络结构,而在于没有标签,没有监督信号,就是没有成对数据。
动机:
发现问题之后,就是我们的动机了:从输入图像本身寻找内容和化妆风格监督信号。
观察:
我们将不同妆容迁移方法的结果和源图像做了频分解,分解为高频组件和低频组件,发现同一人脸图像在化妆前后的主要差异集中在低频(LF)分量上,而高频(HF)分量几乎没有变化。注意这不是图像展示中的个例,而是一个普遍现象。我们在图 3 中测量了源图像和传输图像之间这些分解的低频和高频分量的均方误差(MSE)。可以看出,低频成分计算出的 MSE 值远远大于高频成分计算出的 MSE 值。这表明,同一人脸图像在化妆前后的主要差异主要集中在低频成分上,而高频成分几乎没有变化。
假设:
根据上述的观察,我们假设人脸图像的低频成分更多地与化妆风格信息相关,而高频成分则更多地与内容细节相关。
学习策略:
基于这一假设,CSD-MT 首先对每幅输入和输出图像进行频率分解,将它们的内容和妆容风格解耦。然后,在进行模型训练时,CSD-MT 分别根据高频和低频成分,同时最大化传输结果与源图像和参考图像的内容和妆容一致性,如图1所示
整体的网络架构如下图:
我们故意将网络结构搭建的特别简单,也没有采用扩散(扩散模型比现有方法复杂,就不能验证是模型起的作用还是我们无监督策略起的作用),来验证我们猜想:妆容迁移的难点并不在模型的网络结构,而在于没有标签,没有监督信号,就是没有成对数据。网络结构具体的细节,大家感兴趣的话,可以看论文。
定性实验:
(定量和消融实验,大家感兴趣可以看论文)
妆容迁移效果:
存在的限制:
其实我们方法的限制也很明显,因为我们方法直接简单将高频作为内容,这就导致一些含有高频细节的妆容(尤其是边界区域)无法迁移。但是我们实验发现,即使在特别复杂妆容下,我们的方法依然明显优于现有的妆容迁移方法(图19),CPM除外。我们在openreview的rebuttal环节对比了CPM方法,我们认为在特别复杂的妆容下,我们方法和CPM各有优势。
代码效果:
我们将人脸检测,face parsing,和我们的方法全部集中到了一起,只需提交照片即可,方便不熟悉深度学习的人也能随时使用。我们的方法计算量也十分小,我们只验证了公开代码在cpu上的正常运行,测试环境为mac m1芯片,全部的推理时间约为1秒。