STGAN

最新推荐文章于 2024-05-21 23:34:16 发布

Guochen_Hsie

最新推荐文章于 2024-05-21 23:34:16 发布

阅读量1.1k

点赞数

分类专栏：论文阅读文章标签：计算机视觉

本文链接：https://blog.csdn.net/Guochen_Hsie/article/details/104417100

版权

1 篇文章 0 订阅

订阅专栏

主要比较对象(StarGan, AttGan)

人脸的属性很多，如果使用一个人脸属性编辑模型来处理一种人脸属性编辑问题，那么使用的模型将会指数级地增长(StarGan 和 AttGan都是一个模型)
多数模型使用“编码器-解码器”结构来解决问题，然而只使用编码器解码器结构，容易导致生成的图像的质量不高。如果使用跨层连接，生成质量能够提高，但是属性操纵会不准确(文中通过AttGAN的实验证明这一点)。为了解决这个问题，本文设计了Selective Transfer Units(STU)
在属性编辑问题上，其实只提供待编辑的属性的标签即可。但是，现在的模型都会使用所有的标签，使用额外的标签可能会对生成带来影响。（StarGan使用了所有的属性标签【不只是待编辑的标签，还有些不用编辑的属性的标签】作为输入，AttGan在encoder编码的特征后拼接了目标属性，由于要在一个模型中做多种属性甚至是复合属性编辑，所以不可避免地会用到多个属性的信息，如果在属性编辑的实例中，一个可以编辑n种属性的模型，只用来改变一个属性，仍然带着的其它属性就可能会对属性编辑造成影响）

在属性嵌入方式上，使用了差分属性，提供了更多的属性迁移的信息（是否迁移，迁移方向，由于提供的信息更加明确，因此也有利于训练）
图像质量和属性操纵上，为了解决生成图像质量和属性操纵准确度之间的矛盾，仿照GRU提出了STU，用于嵌入属性，同时对encoder编码的属性进行转换，使得属性编辑更加准确

在这里插入图片描述
该方法使用了常用的编码器-解码器结构，同时为了提升图像质量，还利用了跨层连接。与一般的跨层连接不同的是，跨层连接经过了STU模块的处理，加入了属性信息。

该方法是从GRU]演化来的，类比地来看 $\hat{s}^{l+1}$ 可以看成GRU里边的状态输入， $f_{enc}$ 可以看作是外部输入和输出。与原始的GRU相比，有两点不同。

在输入上，为了嵌入特征向量，参与STU单元运算的是 $\hat{s}^{l+1}$ 而不是 $s^{l+1}$ ，两者之间的关系为：
$\hat{s}^{l+1}=W_{t\ *T}[s^{l+1},att_{diff}]$
在输出上， $s^{l}$ 不是在最后和 $f_{t}$ 一起输出的，而是在中间经过遗忘门处理之后直接输出。

重建损失（这个损失在StarGAN里没有发现，STGAN的重建效果好和这个有关系？）
$\mathcal{L}_{rec}=||x-G(x,0)||_1$
WGAN对抗损失
$\max_{D_{adv}}\mathcal{L}_{D_{adv}}=\mathbb{E}_xD_{adv}(x)-\mathbb{E}_{\hat{y}}D_{adv}(\hat{y})+\\\lambda\mathbb{E}_{\hat{x}}[(||\nabla_{\hat{x}}D_{adv}(\hat{x})||_2-1)^2]$
$\max_{G}\mathcal{L}_{G_{adv}}=\mathbb{E}_{x,att_{diff}}D_{adv}(x,att_{diff})$
属性分类损失(StarGAN里也有这个损失)
$\mathcal{L}_{D_{att}}=-\sum_{i=1}^{c}[att_{s}^{(i)}logD_{att}^{(i)}(x)+(1-att_s^{(i)})log(1-D_{att}^{(i)}(x))]$
$\mathcal{L}_{G_{att}}=-\sum_{i=1}^{c}[att_{t}^{(i)}logD_{att}^{(i)}(\hat{y})+(1-att_t^{(i)})log(1-D_{att}^{(i)}(\hat{y}))]$

使用CelebA数据集，划分方式为默认方式，同时从validation set里边抽出1000张用于验证，其他的还是用于训练。
图像尺寸： $128\times128$

在生成任务里，往往重建效果好，生成的特征就不明显；生成的特征明显，重建效果就差。所以1，2，3实验都是必备的（虽然很多论文没有实验1）

关注