SimSwap: An Efficient Framework For High Fidelity Face Swapping

offifical infernece code

背景

Deepfake式的换脸decoder的目的是将B的脸换到A的头上。但输入特征是由从B处得到,因此要求decoder学习到了A的表示。这注定了Deepfake只能对两个人之间换脸,无法实现任意人之间的换脸。

Method

SimSwap其实也很简单,模型分成5个部分。

  • 一个Encoder,对target image提取特征。
  • IIM: 由多个ID block组成的残差网络。
  • Decoder,输出具备source image 的人脸的图像,但属性来自target image。
  • Identity Extractor:直接采用了arcface,提取人脸id code。
  • Discriminator: 多尺度的D

为了简单描述,我们将A代表source image, B代表target Image。生成图像用R代表。

在这里插入图片描述

使用arcface提取source image的id特征,将id特征作为style,使用adain,将id信息注入到 E ( B ) E(B) E(B)中。为了能让ID信息有足够的影响力,IIM足足有9个ID block。

损失函数有两个

  • GAN loss,作者使用hinge version
  • weak feature matching loss
  • ID loss
  • Reconstruction loss: source和target都是B或者A,重构自己的脸。

ID loss让生成的图像和A是一个人,但过强的ID loss让R总是正脸,直接丢失了B的属性(背景,光照,头发,姿态等)。因此需要R和B对齐这些属性,Weak FM loss就是为了解决这个问题。

这里主要说一下Weak FM loss。

Weak Feature Matching Loss

如果模型需要监督,又不用GAN的架构,那肯定需要一个具备A脸B的头的GT,然后用L2的重构loss训练就行。但这种GT是没有的。
因此作者才会使用Gan的架构,一方面让人脸生成得足够真实。但只有GAN的架构是不够的。
GAN loss并不会严格控制生成图像R具有B的头,B的背景等等其他属性。

没错,R的attribute必须和B对齐,否则生成的图像虽然像A,但可能已经和B没有啥关系了。
而和FM loss的区别就在于,weak FM loss只计算D的后几层。
L w F M ( D ) = ∑ i = m M 1 N i ∥ D ( i ) ( I R ) − D ( i ) ( I T ) ∥ 1 L_{w F M}(D)=\sum_{i=m}^{M} \frac{1}{N_{i}}\left\|D^{(i)}\left(I_{R}\right)-D^{(i)}\left(I_{T}\right)\right\|_{1} LwFM(D)=i=mMNi1D(i)(IR)D(i)(IT)1

作者解释:因为浅层特征表示细节,而换脸任务要求更换掉B的脸,则要求和B的细节不能一样。
但这种解释其实比较牵强。因为光照,背景等也是细节,这些其实要保持一致的。(但也许econstruction loss是用来保证这些细节,要求D生成和B一样的细节,但是id信息确实来自source。)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值