LAPGAN 论文笔记_非鲁棒的特征-CSDN博客

本文链接：https://blog.csdn.net/weixin_41431170/article/details/109058076

LAPGAN 论文笔记

高斯金字塔与拉普拉斯金字塔
- 高斯金字塔
- 拉普拉斯金字塔
模型结构

LAPGAN¹的目标是提升GAN生成图像的分辨率。在LAPGAN中，每一张图片由多次生成。前一次生成的输出为后一次的输入，并且分辨率逐层提升。在生成过程中每一步都是独立的一个GAN系统，并且分离训练。

高斯金字塔与拉普拉斯金字塔

金字塔

定义 $d (x)$ 为下采样操作， $u (x)$ 为上采样操作。对于图片 $I$ ，张图片 $I_k$ 的尺寸为 $J_k\times J_k$ 。

高斯金字塔

对于高斯金字塔 $\mathcal{G}(I)=\left[I_{0}, I_{1}, \ldots, I_{K}\right]$ ， $I = I_0,I_{k+1}=d(I_k)$ ， $J_{k+1} = 2J_{k}$

拉普拉斯金字塔

对于拉普拉斯金字塔 $h_k = \mathcal{L}_{k}(I)=\mathcal{G}_{k}(I)-u\left(\mathcal{G}_{k+1}(I)\right)=I_{k}-u\left(I_{k+1}\right)$ 。其中 $h_k$ 为高分辨率图像下采样时损失的信息，可表示为 $I_{k}=u\left(I_{k+1}\right)+h_{k}$ 。

模型结构

与原始GAN不同，LAPGAN由数个GAN系统组成。其中大部分GAN生成的目标不是完整的图片，而是残差 $h_k$ 。在金字塔中每一层的图片 $\tilde{I}_{k}$ 由下一层的图片上采样再加上由生成器生成的残差 $h_k$ 组成。
训练过程

生成器

对于在底层的生成器，如图中 $G_3$ ，输入为噪声 $z_3$ ，输出为 $4\times 4$ 的图片。

除最底层外，生成器 $G$ 的输入为下层的输出 $h_{k+1}$ 加上噪声 $z_k$ ，输出为 $h_k$ ，即
$\tilde{h}_{k}=G_{k}\left(z_{k}, u\left(I_{k+1}\right)\right)$

整个生成过程可表示为
$\tilde{I}_{k}=u\left(\tilde{I}_{k+1}\right)+\tilde{h}_{k}=u\left(\tilde{I}_{k+1}\right)+G_{k}\left(z_{k}, u\left(\tilde{I}_{k+1}\right)\right)$

鉴别器

对于底层的鉴别器，如图中 $D_3$ ，功能与原始GAN中的鉴别器相同，输出图片，输出二分的鉴别结果。

除底层外，鉴别器 $D$ 的输入为下层的 $h_{k+1}$ 与当层的残差 $h_k$ ，同样输出二分的鉴别结构。

结合CGAN

LAPGAN实际上可以进行无监督学习，但在有标签的数据集中，为了使结果更优秀，能够将每一组GAN替换为CGAN，即在生成器 $G$ 与鉴别器 $D$ 的输入中额外增加一项标签 $l$ 。

训练过程

全系统如图中所示自左向右进行训练，以 $I_0$ 部分为例：

对 $I_0$ 进行下采样得 $I_1$
对 $I_1$ 进行上采样至 $I_0$ 尺寸，得 $l_0$
由 $G_0(z_0, l_0)$ 得 $\tilde{h}_{0}$
由 $I_0 - l_0$ 得 $h_0$
通过 $D_0(h_0,l_0)$ 分别得到结果，并进行训练
进行下一层训练

对于除底层外的GAN系统，损失函数为
$\min _{G} \max _{D} \mathbb{E}_{h, l \sim p_{\text {Data }}(\mathbf{h}, \mathbf{1})}[\log D(h, l)]+\mathbb{E}_{z \sim p_{\text {Noise }}(\mathbf{z}), l \sim p_{l}(\mathbf{l})}[\log (1-D(G(z, l), l))]$

而对于底层则与原始GAN损失函数相同。

E. Denton, S. Chintala, R. Fergus, et al. Deep generative image models
using a laplacian pyramid of adversarial networks. In Advances in Neural Information Processing Systems (NeurIPS), pages 1486–1494, 2015. ↩︎