One-shot Face Reenactment(BMVC19)

3 Approach

给定source face x s x_s xs,包含了pose guidance,以及target face x t x_t xt,包含了reference appearance,学习的目标是生成一幅图像包含 x s x_s xs的pose/expression,以及 x t x_t xt的identity

3.1 Disentangle-and-Compose Framework

在这里插入图片描述
Shape Encoder E E E
Shape Encoder E E E的网络结构和文献[34, 35]中的boundary encoder一模一样,将人脸图像编码为一个15通道的heatmap,分别对应人脸不同的部分,然后涂上不同的颜色,得到face parsing maps

此外,增加额外的2个gaze channels,

Shape Encoder E E E在WFLW数据库上进行预训练,gaze channels在EOTT数据库上进行预训练,预训练完成后,整个Shape Encoder E E E被frozen

Appearance Auto-Encoder F F F
Appearance Auto-Encoder F F F包含Encoder部分以及Decoder部分

F F F需要学习人脸图像中的identity information和local facial details

F F F的Decoder负责重构人脸图像,为了保证生成图像中的identity,将Decoder过程中的feature maps拼接到Semantically Adaptive Decoder D D D中(Figure 3中的橘黄色箭头)

为了保证 F F F不受shape的影响,……

Semantically Adaptive Decoder D D D
原本可以采用U-Net的结构,现在使用了multi-scales SPADE blocks,就可以去掉U-Net的Encoder部分

3.2 FusionNet

目前为止的模型在生成facial details(如胡子、皱纹)仍然存在问题,而warping-based methods生成facial details的效果比较好,因此提出一个FusionNet结构,如Figure 4所示,接收生成图像以及warping的结果,生成一个mask用于融合两幅图像
在这里插入图片描述

3.3 Learning

L t o t a l = L r e e n a c t + λ L a p p r e c o n s L r e e n a c t = α r L p e r c e p t u a l + α g L G A N + α i L i d ( 1 ) \begin{aligned} L_{total}&=L_{reenact}+\lambda L_{app_recons} \\ L_{reenact}&=\alpha_rL_{perceptual}+\alpha_gL_{GAN}+\alpha_iL_{id} \qquad(1) \end{aligned} LtotalLreenact=Lreenact+λLapprecons=αrLperceptual+αgLGAN+αiLid(1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值