【论文阅读】Interpreting the Latent Space of GANs for Semantic Face Editing

最新推荐文章于 2024-04-02 16:20:05 发布

huitailangyz

最新推荐文章于 2024-04-02 16:20:05 发布

阅读量2.6k

点赞数

分类专栏：论文阅读特征解耦人脸编辑

本文链接：https://blog.csdn.net/huitailangyz/article/details/107969583

版权

论文阅读同时被 3 个专栏收录

18 篇文章 2 订阅

订阅专栏

特征解耦

1 篇文章 0 订阅

订阅专栏

人脸编辑

1 篇文章 1 订阅

订阅专栏

【2020CVPR】
Shen, Yujun, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. “Interpreting the latent space of gans for semantic face editing.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9243-9252. 2020.

https://github.com/genforce/interfacegan

任务：对于预训练的GAN模型进行人脸属性编辑

方法

本文对人脸5个属性：姿态、表情（微笑）、年龄、性别和眼镜进行编辑

一、隐空间中的语义

1、单种语义

GAN模型的输入为z，设为d维的向量
对于每种属性，定义一个d维的单位向量n来表示（则 $n^T \cdot z=0$ 则为属性分界的超平面）

那么对于GAN的输入z，可以计算其与特定属性的语义分值，即为两者的点乘
在这里插入图片描述
设生成器g：Z->X，使用函数f来计算语义分值，那么每张图像的特定语义的得分为

其中λ为衡量单位长度中语义变化大小的超参

2、多种语义

类似于单重语义时的定义，采用矩阵N来作为不同的语义向量N=[n_1,…,n_m]
在这里插入图片描述
计算s的均值和方差，由于不同属性间可能会有相关性，因此使用 $n_i^T \cdot n_j$ 来衡量两种语义之间的相关性

二、隐空间中的语义修改

1、单语义修改

在这里插入图片描述
对于原随机变量z沿着语义方向n进行移动，则对应的语义分值也会相应加减
$f(g(z_{edit}))=f(g(z))+λα$

2、条件修改

由于不同属性间不能做到完全的解耦，因此仅沿着一种语义的方向一定时，可能会同时修改了其他属性
因此提出一种修改方法：在保留某一种语义(n2)不变的情况下，修改另一种语义（n1）
在这里插入图片描述
语义修改时的移动方向为： $n_1-(n_1^T \cdot n_2)n_2$

3、真实图像编辑

可以使用最优化输入随机变量的方法，或者基于encoder的方法，将真实图像先得到GAN的输入随机变量z，然后再在z上面进行属性编辑，最后再送入GAN中生成图像

实验

先使用CelebA数据集训练一个属性预测器，对微笑、年龄、性别、眼镜以及人脸5点位置（用于估计左右姿态）进行预测
实验在PGGAN和StyleGAN上进行，对于每种模型，先随机采样500K的随机变量，得到对应的500K张图像，然后使用前面训练的属性预测器，对于需要编辑的5种属性进行预测
对于每种属性，选取得分最高和最低的各10K张图像，使用对应的输入z训练SVM分类器，从而得到决策边界，其法向量即为对应的属性特征向量n