[研一上]人脸属性迁移文献梳理（1）

最新推荐文章于 2022-01-11 08:35:50 发布

VIP文章深井蛙i

最新推荐文章于 2022-01-11 08:35:50 发布

阅读量1.6k

点赞数 4

分类专栏：研究生任务文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/WhaleAndAnt/article/details/103968470

版权

由于刚进入研究生阶段，熟悉新环境和新的生活节奏，加上业余杂事和自我懈怠，一直没有形成良好的学习习惯，因此趁着寒假这种纯自由支配时间，梳理一下上学期看过的文献，捞一捞当时可能因为其他事务耽误而浅尝辄止的知识点，用稍有长进的知识储备回顾之前的阅读任务，也起到温故知新的作用，顺便也规范一下以后的学习工作。
本人主攻的是GAN模型在人脸属性迁移方向，因此下面的文献梳理均为相关领域的内容，如有理解错误的地方，还望共同讨论，指正不足。

Fader Networks

文献全称：Fader Networks:Manipulating Images by Sliding Attributes
文献出处： neural information processing systems, 2017: 5967-5976.
数据集：celebA
这篇论文做的是人脸属性迁移，通过输入目标图像和迁移标签来生成目标图像。

实验效果图

模型框架图
Fader Network结构图

主要思想

这篇文章模型的主要架构是自编码器，自编码器分为编码器E和解码器D两部分，自编码器的机制是使输出尽可能地与输入相同。作者将GAN模型引入到该框架中，如框架图所示，将编码器E作为生成器，再引入一个简单的全连接层分类器作为判别器，通过引入GAN结构，来重塑编码器E生成的潜在特征（latent representation），使这个潜在特征具有特征不变性，通过在解码过程中引入目标标签来生成目标图像。

特征不变性 ：
编码器最后输出的特征图带有输入图像的特征，因而如果单纯地在解码器中添加标签，解码器便会忽略标签信息。这时引入GAN模型，目的是为了让编码器生成不带有特征的特征图，在GAN层面上就是判别器判别不出生成器的输出具有哪种特征。例如，给网络输入一张戴眼镜的照片，编码器输出的特征图中只蕴含其他信息，戴眼镜的信息被模糊掉了，即体现特征不变性，这样生成图像是否戴眼镜就完全取决于解码器赋予的标签。

训练：用输入图像对应的真实标签进行训练。
测试/应用：自由输入图像和目标标签。

损失函数

该模型的损失函数主要分为三部分：重构loss、判别器loss、整体对抗loss.

重构loss采用的是MSE，输入图像x和它所对应的真实标签y，通过均方误差来衡量生成图像和原图像的重构质量。
$L_{AE}(\Theta_{enc},\Theta_{dec})=\frac{1}{m}\sum_{(x,y)\in D}||D_{\theta_{enc}}(E_{\theta_{enc}}(x),y)-x||_2^2$
判别器loss则与传统的GAN损失函数相同，公式如下：
$L_{dis}(\theta_{dis}|\theta_{enc})=-\frac{1}{m}\sum_{(x,y)\in D}logP_{\theta_{dis}}(y|E_{\theta_{enc}}(x))$
整体损失函数则引入了一个 $\lambda_E>0$ 来权衡模型的重构质量和潜在特征不变性，公式如下：
$L_{AE}(\Theta_{enc},\Theta_{dec}|\theta_{enc})=\frac{1}{m}\sum_{(x,y)\in D}||D_{\theta_{enc}}(E_{\theta_{enc}}(x),y)-x||_2^2-\lambda_ElogP_{\theta_{dis}}(1-y|E_{\theta_{enc}}(x))$ 其中 $\lambda_E$ 在训练中的取值为：

起始值： $\lambda_E=0$
经过第一个500k迭代后： $\lambda_E=0.0001$

初始状态相当于是训练一个自编码器，训练到一定程度之后，引入特征不变性的训练要求。

实现细节

卷积核： size：4×4 stride：2 padding：1
编码器和解码器均由7组卷积+BN+ReLU模块组成，编码器使用的是leaky-ReLU，解码器使用的是普通的ReLU.
优化算法： 默认设置为Adam，学习率：0.0002

在解码器中加入条件标签信息，查阅代码后发现，因为CelebA数据集是二元标签，所以每个特征都使用one-hot形式来表示，将当前要添加的标签升维，使其和解码器每层输出一个尺寸，并在通道的维数上添加这些升维的标签（如上述框架图中绿色部分），与当前的特征图一并作为下一层的输入。

GeneGAN

文献全称： GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data
文献出处： Computer Vision and Pattern Recognition, 2017.
数据集： Multi-PIE、CelebA
这篇论文做的是人脸属性迁移，测试效果为输入两张图像，可以通过互换特征部分获得两张不同特征的人脸照片。

实验效果图
GeneGAN效果图
模型框架图
GeneGAN

主要思想

GeneGAN模型也是使用自编码器的结构，编码器将输入图像映射成两个部分（从代码中看，是在特征图的通道维度上将其三一分，即 $\frac{3}{4}$ 为A， $\frac{1}{4}$ 为u），其中一部分表示人脸背景/标识 $A$ ，另一部分表示脸部的属性特征 $u$ 。模型一次需要输入两张图片 $I_A$ 和 $I_B$ ， $I_A$ 和 $I_B$ 有一对不同的特征，模型把 $I_A$ 的特征看作正常向量，把 $I_B$ 的特征表示为0向量，从而形成鲜明地比较，交换后可以生成四张图片，其中两张是重构结果，两张是迁移结果。

损失函数

有若干表示如下：

$A,u)=Encoder(x_{Au})$	$(A,\epsilon)=Encoder(x_{Au})$

最低0.47元/天解锁文章

深井蛙i

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
[研一上]人脸属性迁移文献梳理（1）

入门GAN模型文献梳理由于刚进入研究生阶段，熟悉新环境和新的生活节奏，加上业余杂事和自我懈怠，一直没有形成良好的学习习惯，因此趁着寒假这种纯自由支配时间，梳理一下上学期看过的文献，温故知新谈不上，但意在规范以后的学习工作。每篇文献的记录方式主要分为主要思想和问题两部分，为了记录自己当时的所想所思，如有理解错误的地方，还望共同讨论，指正不足。本人主攻的是GAN模型在人脸属性迁...
复制链接

扫一扫