1 前言
该论文是关于GAN图像生成类的文章出自于大连理工大学并发表于CVPR2021。GAN生成能力最关键的一环在于模型利用真实数据的信息量的多少,但是GAN及其相应的变体因为利用的信息量比较单薄,所以会导致模型在训练的过程中非常脆弱,容易导致模型崩塌。
为了解决这个问题,论文中作者提出了一种新的GAN的框架 ,不同于以往的GAN的判别器将样本映射为判别真假的概率值,该论文中判别器将输入样本映射成为高斯分布因子,借此充分的提取真实分布信息,作者从理论实验两方面验证了 的有效性。论文中的作者还引入了很多个小技巧来文本GAN模型训练的过程。
论文:Posterior Promoted GAN With Distribution Discriminator for Unsupervised Image Synthesi
https://openaccess.thecvf.com/content/CVPR2021/papers/
项目:https://github.com/bioinf-jku/TTUR
论文出自大连理工大学研究团队。
2 预备知识
2.1 LSGAN
与最初的 不同, 采用最小二乘法作为损失函数。它惩罚那些远离决策边界的样本,这些样本可以执行更稳定的学习过程。本文中的 以 的损失函数为基础,其中目标函数为:
其中 是真实图像的分布, 是生成图像的分布。 和 分别表示假数据和真实数据的标签,而 表示生成器 希望判别器 相信假数据的值。2.2 AdaIN
是针对风格传递提出的,它可以将外部风格的图像信息融合到归一化中。给定第 个卷积特征 , 通过实例归一化 对 进行归一化,然后使用 在样式特征 上提供的相应均值和方差对其进行缩放和偏置。该操作被定义为:
在该论文中,作者使用
层将真实信息应用于生成器。
2.3 参数化
参数化技巧主要用在变分推理中梯度下降中,通过得到了多元高斯分布的因子,就可以通过参数化技巧生成该分布的样本。作者从标准高斯 中采样一个随机噪声 ,然后从特定的多元高斯分布中采样可以是:
其中 和 分别是高斯分布的参数。
3 模型方法
由于本论文的数学符号过多,为了能够清晰的辨识,我将论文中的数学符号整理成下表。
如下图所示为 的模型结构图。判别器将图像作为输入,并输出多元高斯分布的因子 和 。生成器在训练过程中借助于后验模块和 从随机噪声 和后验向量 中产生图像。
3.1 分布度量
假设: 和 是通过参数化技巧从两个不同的一维高斯分布 和 中采样的: , , 和 之间的最小平方距离为:
其中对于 ,如果说距离 ,则可以认为分布 和 基本一致。可以将上公式重新简化为:
证明:已知
令 , ,则有 ,进一步可以推知:
如果 ,则有 , 。此时分布 与 一致,但前提假设是多维高斯分布的每个元素之间时相互独立的。
3.2 后验分布判别器
判别器输出的是后验分布的特征向量 ,而不是一个标量的概率数值。多元高斯后验分布的两个因子分别是均值 和标准差 ,其中 是 , 是多元高斯分布的维度。
给定一批图像 ,判别器同时输出 和 ,它们表示向量 上的高斯后验分布的因子,后验分布可以表示为 ,其中 可以从真实图像分布 采样或由分布 中生成。
为了构造对抗损失,作者引入了向量 的两个先验分布 和 ,它们是用户给出的多元高斯分布。作者将 的损失推广为高斯分布的形式,具体的损失函数表示为:
其中第一项缩短后验分布 和先验分布 之间的距离。后验分布 和先验分布 之间的距离。通过最小化 , 中的真实信息将被用来促进生成器的生成过程。3.3 后验分布生成器
生成器输入从标准高斯采样的随机噪声 以及来自后给定真实图像的编码向量 ,并输出生成的图像。作者利用 来稳定生成器的训练,防止训练过程中真实信息的消失,对抗损失函数如下所示:
传统上,生成器接收从标准高斯采样的随机噪声 并用于产生图像,其中 是随机噪声的维数。作者基于这个设计出发,在给定 的情况下,引入了一个来自于后验判别输出的后验向量 ,与 一起将包含在后验中的真实信息嵌入到生成器的每一层中。
后验模块是相互独立的完全连接的层,没有任何激活功能,如模型结构图所示,它们用于将
映射到对应于不同卷积信道的不同维度的特征。除了在每一层应用真实信息之外,后验模块还提供了根据不同卷积层的需求调整信息:
其中 从 中采样,给定 , 是第 个后验模块。作者的方法使用后验特征作为 中的外部信息,生成器中使用的 层如下:
作者首先利用
对
进行归一化,使其具有零均值和单位方差,然后用具有真实信息的
的均值和方差对其进行偏置和缩放,最后将后验特征向量
和
加入到生成器中,以真实图像为样式参考,对生成的图像进行“样式转换”。
因此, 通过改变特征的统计信息将真实信息融合到每一层。为了在训练过程中保留真实信息,作者提出了一个正则化器 ,它是用于最小化后验给定生成图像和真实图像之间的距离:
其中下标 和 用于区分从不同分布 和 采样的图像。 表示绝对值。综上所述,生成器的总的损失函数为:
其中 表示的是平衡系数。
4 理论分析
作者分析了 和 -散度之间的关系。给定固定的 ,可以推导出基于 的最优鉴别器:
当
最优时,正则化损失
为零。为了分析
的最优值,作者将损失
改写如下形式:
进而则有:
其中,项 是相对于变量 的,该项可以被视为一个常数值,可以把它排除在 的积分之外,进而则有:
如果 ,最小化 意味着最小化 和 之间 散度。当且仅当时,达到最佳 ,最优解为:
写成高斯分布的形式为:
5 实验结果
5.1 质量分析
下表给出了CIFAR10和CelebA的FID分数,可以发现 是所有基线中最好的。
下面三幅图为定性结果的展示, 生成的图片如下两幅图所示:
5.2 模块分析
下图表示了论文中 模型的四种设置的结果,该实验证了各个组件模块在 中起到的积极的作用。
如下表所示,与使用 相比,使用 来标准化 会有更高的FID分数。
5.3 收敛性分析
理论收敛分析可以通过检查全局收敛度量来验证,具体公式如下所示:
其中 ,如下图所示所示为 的训练值,这验证了 具有很好的收敛性。
备注:GAN
GAN
生成对抗网络、GAN等技术,
若已为CV君其他账号好友请直接私信。
在看,让更多人看到