[Intensive Reading]图像生成：SaGAN

最新推荐文章于 2024-06-22 09:36:30 发布

zxucver

最新推荐文章于 2024-06-22 09:36:30 发布

阅读量1.8k

点赞数 3

分类专栏： CV tasks # Image Generation 文章标签： SaGAN GAN 图像生成属性编辑

本文链接：https://blog.csdn.net/chaipp0607/article/details/100995379

版权

CV tasks 同时被 2 个专栏收录

68 篇文章 23 订阅

订阅专栏

Image Generation

3 篇文章 0 订阅

订阅专栏

简介

首先需要说明下，SaGAN不是SAGAN，SAGAN是Self-Attention GAN，Ian Goodfellow大牛挂名的论文，而这篇文章要介绍的是SaGAN是Spatial Attention GAN，即空间注意力的生成对抗网络，来自中科院，它的论文是《Generative Adversarial Network with Spatial Attention for Face Attribute Editing》。
SaGAN用来做面部属性编辑，是一种结合VAE的GAN结构，功能比较简单，一个模型只能修改一种属性，相比其他的GAN模型这并不酷炫，但是对应的模型比较轻量，训练没有压力。对属性无关区域的保留做的很好。

SaGAN原理

设计理念

SaGAN是一种用来做面部属性编辑的方法，比如一个不戴眼镜的人脸图像加上眼镜，或是一个戴眼镜的人脸图像移除眼镜。面部属性编辑有一个大前提是保证属性无关区域不被改变，SaGAN的Spatial Attention机制，就是用来做这个，总结起来SaGAN有三个方面的贡献，其实也可以说是两个：

在GAN中引入了空间注意力（spatial attention），自动关注并修改相关属性，忽略和保留无关属性；
和image-to-image方法不同，SaGAN使用一种属性条件控制，可以用一个生产模型完成一种属性的0,1变换，而不是 $G_{1}(0)=1$ 和 $G_{2}(1)=0$ 这样，使用两个模型；
由于spatial attention的引入，SaGAN对属性无关区域的保留非常出色，如何要使用GAN做人脸识别增广的话，这一点会变的尤其重要，因为起码要保证生成前后一个ID。

SaGAN网络结构

在这里插入图片描述
上图就是SaGAN的网络结构，例子是将一个戴眼镜的人脸图像 $I$ 生成不戴眼镜的人脸图像 $\hat{I}$ 。
首先作为一个GAN结构，一定有生成器G和判别器D两个部分，分别是上图中白色的Generator部分和灰色的Discriminator部分。
首先是生成器部分G，它的输入是原始图像 $I$ 和属性控制信号 $c$ ，负责输出修改后的图像 $\hat{I}$ ：
$\hat{I}=G(I,c)$
生成器又拆分为两个网络，一个是attribute manipulation network（AMN），定义为 $F_{m}$ 。它的输入是原始图像 $I$ 和属性控制信号 $c$ ，负责输出中间结果 $I_{a}$ ， $I_{a}$ 是对整副图像直接操作的结果：
$I_{a}=F_{m}(I,c)$
另一个网络就是这个方法的核心，空间注意力网络spatial attention network (SAN) ，定义为 $F_{a}$ 。它的输入是原始图像 $I$ ，负责输出一个掩码图像 $b$ ，它是一个二值图。在这个二值图中，1应该对应属性相关的区域，0对应属性无关的区域。但是这是一种理想化的结果，由于 $b$ 是网络反卷积出来的，所以没办法控制 $b$ 中的像素非1即0，而是一个被压缩到0-1内的连续值，所以实际上是 $b$ 中非0的像素对应属性相关的区域，为0的像素对应属性无关的区域。
$b=F_{a}(I)$
有了 $I$ ， $I_{a}$ 和 $b$ 之后，就可以输出最后的结果了，即：
$\hat{I}=G(I,c)=I_{a}\times b+I\times(1-b)$
就是用掩码 $b$ 之和中间结果 $I_{a}$ 做乘，再将掩码取反，和原图 $I_{a}$ 做成乘，最后把它们加起来。

在这里插入图片描述
上图是生成器G的网络结构，AMN和SAN结构是一样的，并且 $I_{a}$ 和 $b$ 都靠反卷积得到。SAN最后用Sigmoid把范围压缩到0-1。

判别器部分D也有两部分，分别是原始的 $D_{src}$ 和增加的 $D_{cls}$ ，分别用来评价图像生成的效果和属性编辑的效果。因为如果没有 $D_{cls}$ ，也可以生成出质量高的图像，但是做不到属性的控制。 $D_{src}$ 和 $D_{cls}$ 共用了主干网络。
在这里插入图片描述
上图是判别器D的网络结构， $D_{src}$ 和 $D_{cls}$ 公用了前6层主干。

SaGAN损失函数

首先是SaGAN的判别器D损失，由于判别器有 $D_{src}$ 和 $D_{cls}$ 两个部分，所以损失函数也是：
$D_{src}$ 的损失函数和原始GAN是一样的，即：
$L_{src}^{D}=\mathbb{E}_{I}[logD_{src}(I)] +\mathbb{E}_{\hat{I}}[log(1-(D_{src}(\hat{I}))]$
$D_{cls}$ 和 $D_{src}$ 的作用是相似的，是对属性做二分类，所以它也可以用二值交叉熵来表示，即：
$L_{cls}^{D}=\mathbb{E}_{I,c^{g}}[-logD_{cls}(c^g,I)]$
所以判别器的总损失，在原文中表示为：
$\underset{D_{src},D_{cls}}{min}L_{D}=L_{src}^{D}+L_{cls}^{D}$
但是感觉这个有问题， $L_{src}^{D}$ 没有加负号，不应该是最小化 $L_{src}^{D}$ ，而是最大化，多以个人认为上式应该修改为：

$\underset{D_{src},D_{cls}}{min}L_{D}=-L_{src}^{D}+L_{cls}^{D}$

其次是SaGAN的生成器G损失，由于判别器有 $D_{src}$ 和 $D_{cls}$ 两个部分，所以生成器G也要有两个对应的损失函数，分别是固定判别器时生成更真实的图像 $L_{src}^{G}$ 和生成更对应属性的图像 $L_{cls}^{G}$ ：
$L_{src}^{G}=\mathbb{E}_{\hat{I}}[-log(D_{src}(\hat{I})]$
$L_{cls}^{G}=\mathbb{E}_{\hat{I}}[-log(D_{cls}(\hat{I})]$
它们应该是二值交叉熵的右侧部分，但是论文里改写了下，拿 $L_{src}^{G}$ 举例， $min(\mathbb{E}_{\hat{I}}[-log(D_{src}(\hat{I})])$ 等效于 $min(\mathbb{E}_{\hat{I}}[log(1-D_{src}(\hat{I}))])$
生成器部分还有第三个损失函数，就是重塑损失 $L_{rec}^{G}$ ，它是一个均方误差损失。它的目的是