Wei Shen, Rujie Liu
Fujitsu Research & Development Center, Beijing, China.
@CVPR2017
Introduction
作者提出想要对人脸的一些属性进行操控,结合生成模型来完成.
当前主流的生成模型包括GAN以及VAE,但由于GAN模型是接收随机噪声来生成图片,因此无法对图片进行编码.而VAE的编码-解码结构也会对图像的重建质量造成损伤.在此,作者提出了将Face attribute manipulation 视为一种图像的变换,这种变换可以直接通过一个CNN来实现.本文提出 residual images 的观点,即仅学习两个图片中不同的部分,而保持其他部分不便.
Approach
总体结构如上图所示,由于对面部属性(加上或去除眼镜,改变表情)是一个area specific的操作,因此网络的目标是学习前后之间的差异并直接与原始图片相加完成manipulation.
作者将G网络分为两个部分,分别对应于将negative属性变为positive属性的网络
G0
G
0
以及将pos属性变为neg属性的网络
G1
G
1
,
r0
r
0
和
r1
r
1
分别代表了对应的残差部分.最终输出为
Dual learning
在机器翻译中经常用到的优化手段,即第一个机制将A语言翻译为B语言(primal task)并将结果发送给第二个机制,由第二个机制判断B语言输入是否自然,第二个机制将B语言翻译为A语言(dual task)并发送给第一个机制,第一个机制判断收到的信息是否和原来的信息相符。在循环中进行训练。
在本文中,对于给定的
x0
x
0
,通过网络
G0
G
0
得到
x0~
x
0
~
,然后将
x0~
x
0
~
送入网络
G1
G
1
得到
x0^
x
0
^
,此时
x0^
x
0
^
应该和
x0~
x
0
~
有相同的属性。
Experiments
作者使用了CelebA数据集,选取了6个属性作为操控的对象: glasses, mouth open, smile, no beard, young, and male. CelebA数据集中没有对于操控后属性的ground truth.