【换脸】StyleIPSB:用于高保真换脸的StyleGAN身份保留语义基(CVPR2023)
论文地址
PS:什么是语义基?
“语义基础”(Semantic Basis)是指一组特征向量,表征了数据(例如图像)中的语义信息。在StyleGAN和其他生成对抗网络中,语义基础通常用于生成图像的控制。通过调整生成模型的语义基础系数,可以实现对生成图像的样式和特征的控制,例如改变生成图像的面部表情、姿势和视角等。
目录
一、研究背景及贡献
A. 问题
当前换脸方法主要分为两类:
- 基于3D模型
(1)基于3DMM构建原始和目标人俩的3D人脸模型;
(2)将目标人脸的非身份属性转移至原始人脸模型中(如姿态、表情等);
(3)将渲染转移后的人脸模型将其混合进目标人脸图像中(我理解是取target image的背景);
缺点:无法生成逼真的细节,如头发和牙齿。 - 基于GAN:如利用预训练的StyleGAN,与基于3D模型的方法相比往往能生成更逼真的细节,但仍不能生成毛孔级细节,以及在保持身份属性上需改进。
总之现有方法存在两个问题:
- 模糊:无法生成牙齿、毛发等毛孔级的细节;
- 困难场景中不能保留身份信息。
B. 贡献
- StyleGAN身份不变语义基:StyleIPSB,满足以下3条性质:
(1)StyleGAN W+空间的线性子空间,从而保证生成图像有毛孔级细节(在这里他分析造成模糊的原因是style code超出W+空间);
(2)当改变StyleIPSB的坐标时,身份保持不变;
(3)可以表征多样的姿态、表情和光照(通过改变StyleIPSB坐标控制生成); - StyleGAN-3DMM映射网络,将3DMM和StyleIPSB联系起来,利用3DMM语义优势和StyleIPSB的身份保持和高保真优势:
以往的工作:StyleRig将3DMM参数空间映射到StyleGAN W+坐标空间,通过3DMM参数改变生成图像的面部属性,但StyleRig只能操纵StyleGAN生成的图像;Pie在StyleRig基础上设计了一个非线性的优化问题,从而能编辑真实世界的图像,但优化非常耗时;GIF利用FLAME参数控制生成图像,但生成的图像常包含瑕疵且身份发生改变。本文将3DMM和StyleIPSB组装,构建StyleGAN-3DMM映射网络。 - 基于StyleIPSB和StyleGAN-3DMM映射网络的三阶段换脸框架(和基于3D模型的换脸方法步骤大致相同):
【换脸,需要得到与原始人脸身份一致、而与目标人脸除身份以外的属性都一致的人脸(如姿态、表情、光照、背景等)】
(1)将目标人脸的属性转移至原始人脸上:学习从3DMM参数到StyleIPSB坐标的映射;【见PS】
(2)对于3DMM无法捕获的细节:学习目标人脸和重建人脸之间的残差属性;
(3)将生成人脸混合进目标人脸的背景中。
PS:3DMM:三维形状和纹理模型(3D Morphable Model),是一种用于建模和生成人脸的三维形状和纹理信息的方法。
3DMM的基本思想是通过对大量的人脸图像进行建模,从中提取出人脸的三维形状和纹理的统计信息(参数)。
这样一来,3DMM可以表示一个平均人脸,以及一组形状和纹理的变化信息(3DMM参数),这些参数可以用来生成不同的人脸。
也就是说,3DMM参数可以捕获人脸图像显著的语义差异(如姿态、表情、光照),而StyleIPSB则能保证生成高保真的身份不变人脸。
二、相关工作
主要讲了基于StyleGAN的人脸编辑和基于条件GAN的换脸。没有太多内容,略过。
三、方法
A. 构建StyleIPSB
StyleIPSB同时满足:是W+空间的子空间(否则会发生变形)、保持ID不变、能表征属性:
与以往的方法直接解耦W+空间的特征值不同,StyleIPSB在解耦特征值时添加了约束:语义度量和身份损失。
距离度量公式:
G:StyleGAN;M:3DMM拟合网络(从图像中得到3DMM参数,包括姿态p、表情e和光照i),具体用的是DECA。
公式很好理解,分子:由style codew1和w2,由StyleGAN生成的图像,经3DMM拟合网络获取某一方面的参数(p、e、i),度量MSE距离;分母:由StyleGAN生成的两个图像之间身份损失(cosine损失)。在使得姿态、表情和光照参数距离尽可能大的同时,控制身份损失尽可能小(保持身份不变)。
但优化没看懂。
论文原文:
文中说利用Hession矩阵进行二阶近似编码。Hession矩阵是二阶偏导数矩阵,用于描述一个多变量函数的二阶导数信息。如果一个函数有多个变量,那么Hessian矩阵将包含所有可能的二阶偏导数。分解Hession矩阵得到特征值,可以寻找函数最值。(3)中的公式应该是Hession矩阵的写法,没什么实际意义。总之是用[42]中的算法找到了m个向量(在这个方向上函数变化最快)。
而StyleGAN的style code每一层的语义不同,论文要用到的是前三层的姿态语义基、第4-10层的表情语义基和第10层之后的光照语义基。作者分别采样了100次得到100个集合(应该是向量的集合),然后利用施密特正交化分别得到平均的语义基(姿态、表情和光照)。【施密特正交化用于将线性空间中的一组向量转换为一组正交向量。】从而构建StyleIPSB坐标系V。
B. 3DMM-StyleGAN映射网络
如图,原始人脸和目标人脸输入3DMM拟合网络得到3DMM参数,然后3DMM-StyleGAN映射网络将3DMM参数映射到StyleIPSB坐标系,然后用得到的坐标(姿态、表情、光照)对style code w进行转换:
转换后的style code输入StyleGAN生成图像。
3DMM-StyleGAN映射网络包含3个6层的多层感知器(MLP),损失函数(对生成图像计算损失):
总的来说,损失包括两部分:身份和属性。为保证身份不变:生成图像和原始图像计算身份损失;另外需与目标图像计算属性损失,达到控制姿态表情和光照的目的。
属性损失:分成几何损失L_geo和渲染损失L_render。“几何”包含形状、表情和姿态;“渲染”包含形状、表情、反射、光照、姿态。
G_3DMM用于从3DMM参数中生成3D几何形状, R用于从3DMM参数中生成渲染过的图像。因为只需比较生成图像和目标图像的属性,所以3D人脸模型都采用了原始人脸的形状参数进行建模。
【(6)的公式中L_geo我觉得少了一个目标图像的参数,应该是勘误】
C. 细节属性变换
前面讲过,换脸时先利用3DMM-StyleGAN映射网络将目标属性转移至原始人脸上,然后对于3DMM无法捕获的细节,学习目标人脸和重建人脸之间的残差属性。本文提出了DAT(Detailed Attribute Transformation)-MLP网络来迁移更细节的属性。
这一部分貌似就是用网络学了一个,部分ws->t+部分wt(如下),从而包括更多目标人脸的细节。改造后的w’在ws->t和wt之间,仍在W+子空间中。
最后的损失函数如下:
Lp是生成图像与目标图像的感知损失,帮助将目标图像的残差属性转移至生成图像中。
D. 融合图像
最后一步,将生成人脸融合进目标图像的背景中。
论文提出了一个带掩码的空间特征变换模块MSFT(Masked Spatial Feature Transform)来融合图像特征,与其他SFT模块不同的就是加了掩码,能只融合掩码区域的特征。
模块细节:
VggFace提取到的不同层次的特征,通过MSTF模块注入StyleGAN中。
作者使用高斯滤波来过滤由人脸分割算法获得的遮罩图像,以使边界更加平滑。在面部区域保留StyleGAN特征,而背景区域则来自混合特征(SFT)。损失函数:
Lb背景损失,生成和目标图像背景的区别:
Lp:生成图像和目标图像的感知损失。
四、实验
实验部分要验证的:
- StyleIPSB:
(1)表征姿态、表情和光照属性(也就是能编辑这些);
(2)保持身份不变;
(3)保留毛孔级的细节;
(4)和3DMM兼容良好,也就是验证3DMM-StyleGAN映射网络控制面部属性的表现; - 提出的换脸框架与其他换脸方法比较,是具有竞争力的。
A. 实验设置
在FFHQ数据集(包含70000张高质量人脸图像,分辨率1024)上训练3DMM-StyleGAN映射模块,在CelebAMask-HQ(30000张高分辨率人脸图像)和FF++上测试。为了有效训练3个阶段,首先分开预训练了3阶段的模型,然后混合训练。
B. StyleIPSB
- 验证能控制姿态、表情和光照属性:
- 验证解耦能力:在改变头部角度时的身份损失(和GANSPace和Interface两种方法比较,以及有无id-loss的消融):
- 验证身份保持,与其他基于StyleGAN的人脸编辑方法比较:
- 和3DMM模型配合良好,用于编辑人脸属性:
C. 换脸结果
- 消融实验,验证StyleIPSB(也就是有无3DMM-StyleGAN模块)的效果:
定性结果可以看出,StyleIPSB有助于保留毛孔级细节;定量结果中,FID评估图像质量,Exp和Pose计算生成人脸和目标人脸的表情和姿态参数(D3FR提取)的欧式距离,ID similarity计算生成人脸和原始人脸的身份特征相似度(CosFace)。 - 和其他换脸方法的比较:
- 有挑战性的场景,身份保持且保留毛孔级的细节:
- 不足:
五、结论
贡献部分讲过的略过。
学到了什么?
- 怎么让内容更充实。文章先提出StyleIPSB,相当于一种工具,描述能满足什么性质,怎么构造的;然后构造基于该工具的模块3DMM-StyleGAN映射网络,能实现人脸属性编辑;最后是基于该模块的换脸框架。由小到大,非常丰富。每个部分都有一定的创新,且是“有理有据”的创新(必要性和来源),且很多表述很值得借鉴(指怎么把一个直觉的东西描述得感觉很高深)。
- 实验怎么从方方面面验证方法的优点。