CVPR2021 P2GAN：提高图像风格迁移的鲁棒性

最新推荐文章于 2024-03-04 17:15:14 发布

我爱计算机视觉

最新推荐文章于 2024-03-04 17:15:14 发布

阅读量845

点赞数

文章标签：计算机视觉机器学习人工智能深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/118348072

版权

1 前言

该论文是关于GAN图像生成类的文章出自于大连理工大学并发表于CVPR2021。GAN生成能力最关键的一环在于模型利用真实数据的信息量的多少，但是GAN及其相应的变体因为利用的信息量比较单薄，所以会导致模型在训练的过程中非常脆弱，容易导致模型崩塌。

为了解决这个问题，论文中作者提出了一种新的GAN的框架，不同于以往的GAN的判别器将样本映射为判别真假的概率值，该论文中判别器将输入样本映射成为高斯分布因子，借此充分的提取真实分布信息，作者从理论实验两方面验证了的有效性。论文中的作者还引入了很多个小技巧来文本GAN模型训练的过程。

论文：https://openaccess.thecvf.com/content/CVPR2021/papers/

项目：https://github.com/bioinf-jku/TTUR

论文出自大连理工大学研究团队。

2 预备知识

2.1 LSGAN

与最初的不同，采用最小二乘法作为损失函数。它惩罚那些远离决策边界的样本，这些样本可以执行更稳定的学习过程。本文中的以的损失函数为基础，其中目标函数为：

其中是真实图像的分布，是生成图像的分布。和分别表示假数据和真实数据的标签，而表示生成器希望判别器相信假数据的值。

2.2 AdaIN

是针对风格传递提出的，它可以将外部风格的图像信息融合到归一化中。给定第个卷积特征，通过实例归一化对进行归一化，然后使用在样式特征上提供的相应均值和方差对其进行缩放和偏置。该操作被定义为:

在该论文中，作者使用层将真实信息应用于生成器。

2.3 参数化

参数化技巧主要用在变分推理中梯度下降中，通过得到了多元高斯分布的因子，就可以通过参数化技巧生成该分布的样本。作者从标准高斯中采样一个随机噪声，然后从特定的多元高斯分布中采样可以是:

其中和分别是高斯分布的参数。

3 模型方法

由于本论文的数学符号过多，为了能够清晰的辨识，我将论文中的数学符号整理成下表。

如下图所示为的模型结构图。判别器将图像作为输入，并输出多元高斯分布的因子和。生成器在训练过程中借助于后验模块和从随机噪声和后验向量中产生图像。

3.1 分布度量

假设：和是通过参数化技巧从两个不同的一维高斯分布和中采样的：，，和之间的最小平方距离为:

其中对于，如果说距离，则可以认为分布和基本一致。可以将上公式重新简化为：

证明：已知

令，，则有，进一步可以推知：

如果，则有，。此时分布与一致，但前提假设是多维高斯分布的每个元素之间时相互独立的。

3.2 后验分布判别器

判别器输出的是后验分布的特征向量，而不是一个标量的概率数值。多元高斯后验分布的两个因子分别是均值和标准差，其中是，是多元高斯分布的维度。

给定一批图像，判别器同时输出和，它们表示向量上的高斯后验分布的因子，后验分布可以表示为，其中可以从真实图像分布采样或由分布中生成。

为了构造对抗损失，作者引入了向量的两个先验分布和，它们是用户给出的多元高斯分布。作者将的损失推广为高斯分布的形式，具体的损失函数表示为：

其中第一项缩短后验分布和先验分布之间的距离。后验分布和先验分布之间的距离。通过最小化，中的真实信息将被用来促进生成器的生成过程。

3.3 后验分布生成器

生成器输入从标准高斯采样的随机噪声以及来自后给定真实图像的编码向量，并输出生成的图像。作者利用来稳定生成器的训练，防止训练过程中真实信息的消失，对抗损失函数如下所示：

传统上，生成器接收从标准高斯采样的随机噪声并用于产生图像，其中是随机噪声的维数。作者基于这个设计出发，在给定的情况下，引入了一个来自于后验判别输出的后验向量，与一起将包含在后验中的真实信息嵌入到生成器的每一层中。

后验模块是相互独立的完全连接的层，没有任何激活功能，如模型结构图所示，它们用于将映射到对应于不同卷积信道的不同维度的特征。除了在每一层应用真实信息之外，后验模块还提供了根据不同卷积层的需求调整信息：

其中从中采样，给定，是第个后验模块。作者的方法使用后验特征作为中的外部信息，生成器中使用的层如下:

作者首先利用对进行归一化，使其具有零均值和单位方差，然后用具有真实信息的的均值和方差对其进行偏置和缩放，最后将后验特征向量和加入到生成器中，以真实图像为样式参考，对生成的图像进行“样式转换”。

因此，通过改变特征的统计信息将真实信息融合到每一层。为了在训练过程中保留真实信息，作者提出了一个正则化器，它是用于最小化后验给定生成图像和真实图像之间的距离:

其中下标和用于区分从不同分布和采样的图像。表示绝对值。综上所述，生成器的总的损失函数为：

其中表示的是平衡系数。

4 理论分析

作者分析了和 -散度之间的关系。给定固定的，可以推导出基于的最优鉴别器：

当最优时，正则化损失为零。为了分析的最优值，作者将损失改写如下形式:

其中第一项没有的参数，所以最优值保持不变。为了简单起见，作者在下面的等式中去掉了分布中的，则损失可以重新写成：

进而则有：

其中，项是相对于变量的，该项可以被视为一个常数值，可以把它排除在的积分之外，进而则有：

如果，最小化意味着最小化和之间散度。当且仅当时，达到最佳，最优解为：

写成高斯分布的形式为：

5 实验结果

5.1 质量分析

下表给出了CIFAR10和CelebA的FID分数，可以发现是所有基线中最好的。

下面三幅图为定性结果的展示，生成的图片如下两幅图所示：

5.2 模块分析

下图表示了论文中模型的四种设置的结果，该实验证了各个组件模块在中起到的积极的作用。

如下表所示，与使用相比，使用来标准化会有更高的FID分数。

5.3 收敛性分析

理论收敛分析可以通过检查全局收敛度量来验证，具体公式如下所示：

其中，如下图所示所示为的训练值，这验证了具有很好的收敛性。

备注：GAN

GAN

生成对抗网络、GAN等技术，

若已为CV君其他账号好友请直接私信。

在看，让更多人看到

我爱计算机视觉

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
CVPR2021 P2GAN：提高图像风格迁移的鲁棒性

1 前言该论文是关于GAN图像生成类的文章出自于大连理工大学并发表于CVPR2021。GAN生成能力最关键的一环在于模型利用真实数据的信息量的多少，但是GAN及其相应的变体因为利用的信息量...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。