空间中的语义直线检测_CVPR2020(Oral) | StyleRig: 可解释性语义的人脸编辑

StyleRig: Rigging StyleGAN for 3D Control Over Portrait Images

0108332981f7401d737bd02b119bfb6c.png

StyleGAN可以生成极具真实感的肖像图像,基于3DMM的人脸重建可以提供解释性的语义参数,StyleRig,提出通过基于3DMM的人脸重建可解释参数及固定的StyleGAN,进行人脸面部可解释性的人脸编辑,算法以自监督式训练,无需人工标注。

项目主页:http://gvv.mpi-inf.mpg.de/projects/StyleRig/

文章的视频:

Method

本文的目的是可解释性的控制图像的编辑,包括人脸姿态,人脸表情及光照的变化。作者的灵感主要来自于StyleGAN和基于3DMM的人脸重建。对于StyleGAN来说,可以看做一个函数 ,其映射一个潜在向量到一个真实的图像;对于基于3DMM的人脸重建,其输入为一张肖像图像

d1058744aa7f55d82a7f310d288379e6.png

,输出为人脸参数:,其分别对应人脸的ID,表情,光照,姿态等信息,如图,更详细的信息参考[1], [2]。本文设计了一个RigNet网络,将3DMM的可解释编辑的信息添加到潜在向量: ,然后变化人脸参数,可以得到相应修改的图像。该算法的整个网络由三个部分组成:

  • Differentiable Face Reconstruction:映射潜在向量到语义控制向量,具体可以表达成 ,其中为three layer MLP with ELU activations。
  • RigNet:映射潜在向量空间到一个低维空间,然后注入语义控制向量,得到新的潜在向量,已得到对应可解释语义的图像。:这里作者对每个变化(pose,exp,light)分别训练了一个RigNet
  • 预训练的StyleGAN:给定潜在向量空间,生成对应的真实肖像,注:这里作者使用,用于生成1024*1024的图像。

其网络架构如图:

8e53df0782adb2850bec9899c6cc203f.png

Training Datasets

训练过程中,由于需要图像对应潜在空间的信息,作者这里直接使用StyleGAN,随机生成了200K的数据对,对于可控制参数,作者利用论文[4]计算出来的,这里也能使用我们之前讲述的文章[3],获得同样的结果,到此,训练集可以表示为。

Differentiable Face Reconstruction(DFR)

DFR映射潜在向量到语义控制向量,,其由three layer MLP with ELU activations构成,文章以自监督的模式来训练。文章引入了一个可微分渲染层[5],以语义参数为输入,将其转化为3D的人脸模型,同时并生成渲染出来的图像,根据渲染出来的图像,引入了自监督的损失函数。

Render Loss

训练过程以生成图像和渲染的图像作为监督,在图像空间构建一个图像空间的颜色损失,同时基于人脸特征点检测可以检测出特征点信息,并构建了特征点的损失。

损失函数的第一项为图像空间的颜色损失,其可以表示为:

其中:为可微分渲染器色横撑出来的,人脸网格投影下来的区域为1,其它区域为0,为element-wise操作,即为对应矩阵元素想成。损失函数的第二项为稀疏人脸特征点的损失,其可以表示为:

其中:为人脸特征点检测算法得到,基于3D人脸信息来生成,即提前在3D人脸模型上标记出对应的特征点位置,是固定的权重,用来平衡损失项。注意:训练收敛后,DFR网络权重固定。如图,是文章训练的结果。左边为生成的图像,右边为渲染的图像。

9d2a9814fde74f18aca50fd3ee3953fd.png

RigNet

RigNet注入可解释语义向量到潜在向量,得到新的潜在向量,用于生成对应的图像,其由Encoder和Decoder两个网络来构成,对于Encoder网络,将每一个线性变换到一个低维空间,其维度为32,对于Decoder网络,将每一个和可解释语义参数进行合并,然后线性变换到,最终叠加到上。具体可以表示为:

为了训练RigNet,文章提出了如下的损失函数:

其中:为Reconstruction Loss,为Cycle-Consistent Per-Pixel Editing Loss,为Cycle-consistent Per-pixel Consistency Loss。

给定一个变量,在没有改变可解释语义参数的情况的下,新得到的潜在变量,应该和输入的潜在变量保持一致,即,因此定义如下的损失函数:

给定两个潜在变量,,经过DFR网络可以得到对应的可解释参数,,这里仅以表情信息做例子,现在将的表情分量替换成对应的表情分量,然后得到新的潜在变量所对应的表情分量应该与保持一致,同时剩余的其它分量应与保持一致,文章没有直接在参数空间进行限制,而是将其转化为在图像空间的约束。对于约束表情编辑一致的损失函数,文章称为Cycle-Consistent Per-Pixel Editing Loss,其定义如下:

其中:为将的表情分量替换成的表情分量后的可解释参数。对于约束剩余其它分量一致的损失函数,文章称为Cycle-consistent Per-pixel Consistency Loss,其定义如下:

其中:为将将的中除表情分量外均替换成的对应分量后的可解释参数。

Siamese Training

训练过程采用两个潜在变量和,分别对其采用同样的操作,将注入到,同时也将注入到,优化器采用AdaDelta,学习率使用0.01。

Result

cbbf3bce913af5705b0d405deaee3ada.png

276c6f8d7a59779ac0499fb3211a62a8.png

小伙伴们,StyleGAN已经有预训练好的,基于3DMM也有开源的模型,只需要训练几个简单的小网络,就能实现肖像的编辑,行动起来呐。

Reference

[1]. StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

[2]. StyleGAN: A Style-Based Generator Architecture for Generative Adversarial Networks

[3]. Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set

[4]. MoFA: Model-based Deep Convolutional Face Autoencoder for Unsupervised Monocular Reconstruction

[5]. TF Mesh Render

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值