Learning Residual Images for Face Attribute Manipulation

最新推荐文章于 2023-03-14 10:28:50 发布

Flere233

最新推荐文章于 2023-03-14 10:28:50 发布

阅读量1k

点赞数

Wei Shen， Rujie Liu
Fujitsu Research & Development Center, Beijing, China.
@CVPR2017

Introduction

作者提出想要对人脸的一些属性进行操控，结合生成模型来完成.
这里写图片描述
当前主流的生成模型包括GAN以及VAE，但由于GAN模型是接收随机噪声来生成图片，因此无法对图片进行编码.而VAE的编码-解码结构也会对图像的重建质量造成损伤.在此，作者提出了将Face attribute manipulation 视为一种图像的变换，这种变换可以直接通过一个CNN来实现.本文提出 residual images 的观点，即仅学习两个图片中不同的部分，而保持其他部分不便.

Approach

这里写图片描述
总体结构如上图所示，由于对面部属性(加上或去除眼镜，改变表情)是一个area specific的操作，因此网络的目标是学习前后之间的差异并直接与原始图片相加完成manipulation.
作者将G网络分为两个部分，分别对应于将negative属性变为positive属性的网络 $G_0$ 以及将pos属性变为neg属性的网络 $G_1$ ， $r_0$ 和 $r_1$ 分别代表了对应的残差部分.最终输出为

x 1 ~ = r 1 + x 1 = x 1 + G i (x i)

$\tilde{x_1}=r_1+x_1=x_1+G_i(x_i)$ 为了使获得的residual image更稀疏，还使用了L1正则化.

l p i x (r i) = | | r i | | i

$l_{pix}(r_i)=||r_i||_i$ 右图展示了G网络的基本结构，将所有原始的图片（label 0、1）以及所有经过修改之后的图片（label 2）进行分类并计算 loss

l c l s (t, p) = - l o g (p t)

$l_{cls}(t,p)=-log(p_t)$ 以及用于保证其他部分内容不变性的pre loss:

l p e r (x, x ~) = | | ϕ (x) - ϕ (x ~) | | 1

$l_{per}(x,\tilde{x})=||\phi(x)-\phi(\tilde{x})||_1$ 对于

Gi G i $G_i$ 的loss有

l G A N = - l o g (D (G i (x i)) i = 0

$l_{GAN}=-log(D(G_i(x_i))\quad i=0$

l G A N = - l o g (1 - D (G i (x i)) i = 1

$l_{GAN}=-log(1-D(G_i(x_i))\quad i=1$

Dual learning

在机器翻译中经常用到的优化手段，即第一个机制将A语言翻译为B语言（primal task）并将结果发送给第二个机制，由第二个机制判断B语言输入是否自然，第二个机制将B语言翻译为A语言（dual task）并发送给第一个机制，第一个机制判断收到的信息是否和原来的信息相符。在循环中进行训练。
这里写图片描述
在本文中，对于给定的 $x_0$ ,通过网络 $G_0$ 得到 $\tilde{x_0}$ ，然后将 $\tilde{x_0}$ 送入网络 $G_1$ 得到 $\hat{x_0}$ ，此时 $\hat{x_0}$ 应该和 $\tilde{x_0}$ 有相同的属性。