Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记

最新推荐文章于 2024-03-31 15:14:34 发布

只会写bug的菜鸡

最新推荐文章于 2024-03-31 15:14:34 发布

阅读量1.2k

点赞数 3

分类专栏：论文阅读 AI换脸视频换脸

本文链接：https://blog.csdn.net/mzj15101229871/article/details/109294697

版权

本文提出了一种名为CVAE-GAN的框架，通过不对称训练实现精细化图像生成，尤其适用于特定人物或对象的图像。方法结合了变分自编码器和生成对抗网络，利用编码器学习潜在空间，通过成对特征匹配保持图像结构，解决模式坍塌问题。实验表明，该模型在人脸、花朵和鸟类图像上能生成真实、多样且具有细粒度类别的样本，超越CVAE、CGAN等现有方法。

摘要由CSDN通过智能技术生成

论文原文地址:CVAE-GAN: fine-grained image generation through asymmetric training

摘要：

我们提出了变分生成对抗性网络，这是一个将变分自动编码器与生成对抗性网络相结合的通用学习框架，用于合成精细的图像，例如类别中特定人员或对象的脸。我们的方法将图像建模为概率模型中标签和潜在属性的组成。通过改变输入到生成模型中的细粒度类别标签，我们可以在特定类别中生成图像，并在潜在属性向量上随机绘制值。 我们的方法有两个新的方面。首先，我们对判别网络和分类器网络采用交叉熵损失，而对生成网络则采用平均差异目标。这种非对称损失函数使GAN训练更加稳定。【提出一种网络结构】
第二，我们采用编码器网络来学习潜在空间和真实图像空间之间的关系，并使用成对特征匹配来保持生成图像的结构。我们对人脸、花朵和鸟类的自然图像进行了实验，并证明了所提出的模型能够生成具有细粒度类别标签的真实和多样的样本。 我们进一步表明，我们的模型可以应用于其他任务，如图像修复、超分辨率和数据增强，以训练更好的人脸识别模型。 【使用编码器网络学习潜在空间的数据分布】

引言**

建立有效的自然图像生成模型是计算机视觉中的关键问题之一。它的目的是通过根据潜在的自然图像分布改变一些潜在参数来生成不同的真实图像。因此，需要一个期望的生成模型来捕获底层数据分布。这通常是一项非常困难的任务，因为图像样本的集合可能位于非常复杂的流形上。然而，深卷积神经网络的最新进展催生了一系列深层生成模型[14,12,8,31,29,34,15,4,33,6]这些模型取得了巨大的进展，这主要是由于深度网络在学习表示中的能力。【深度学习网络可以捕获真实图像的底层分布】
在这些最近的工作取得成功的基础上，我们希望更进一步生成细粒度对象类别的图像。例如，我们想能够合成特定身份的图像（图1），或生成指定种类的花卉或鸟类的新图像，等等。在CVAE[34]和VAE/GAN[15]的启发下，我们提出了一种通用的学习框架，它将变分自动编码器与生成对抗性网络结合在一个条件生成过程中来解决这个问题。【想要解决的问题就是：想要生成指定类别的真实图像】

合成图像使用我们的CVAE-GAN模型在高分辨率（128×128）的不同类别。生成的样本在类中是真实的和多样化的。

本文提出了一种关于生成器的新方法。不使用与鉴别器网络相同的交叉熵损失，而是要求生成器生成数据，使平均特征与真实数据的ℓ2距离最小。对于多类图像生成，一个类别的生成样本也需要匹配该类别真实数据的平均特征，因为特征距离和可分性呈正相关。在一定程度上解决了梯度消失问题。这种非对称损失函数可以部分地帮助防止所有输出向单点移动的模式崩溃问题，使Gan的训练更加稳定。【提出非对称损失函数，使训练更加稳定。】
虽然使用平均特征匹配会减少模式坍塌的机会，但并不能完全解决问题。一旦发生模式坍塌，梯度下降就无法分离相同的输出。为了保持生成样本的多样性，我们利用VAE和GAN的结合。我们使用编码器网络将真实图像映射到潜在向量。然后要求生成器重建原始像素，并将原始图像的特征与给定的潜在向量匹配。这样，我们就明确地建立了潜在空间与真实图像空间之间的关系。由于这些锚点的存在，生成器被强制发射不同的样本。此外，像素重建损失也有助于维持结构，如图像中的直线或面部结构。【VAE和GAN结合，可以解决模式坍塌。】
- 如图2(G)所示，我们的框架由四个部分组成：
- 1)编码器网络E，它将数据样本x映射到潜在表示z。
- 2)生成网络G，给定一个潜在向量z,它生成图像x‘。
- 3)判别网络D用来区分真实假图像。
- 4)分类器网络C，它测量数据的类概率。这四个部分无缝地级联在一起，整个管道被训练成端到端。我们称之为CVAE-GAN。

图2. 说明VAE[12,31]、GAN[8]、VAE/GAN[15]、CVAE[34]、CGAN[18]、PPGN和提出的CVAE-GAN的结构。其中x和x‘是输入和生成的图像。 E、G、C、D分别是编码器、生成网络、分类网络和判别网络。 z是潜在向量。 y是表示真实/合成图像的二进制输出。 c是条件，如属性或类标签。

一旦CVAE-GAN被训练，它就可以在不同的应用中使用，例如图像生成、图像修复和属性变形。我们的方法估计了输入图像的良好表示，生成的图像似乎更真实。我们表明，它的性能优于CVAE、CGAN和其他最先进的方法。与GAN相比，该框架在训练阶段更容易训练和收敛速度更快、更稳定。 在我们的实验中，我们进一步表明，从我们的模型合成的图像可

最低0.47元/天解锁文章

只会写bug的菜鸡

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
Cvae-gan: fine-grained image generation through asymmetric training论文阅读笔记

论文原文地址:Cvae-gan: fine-grained image generation through asymmetric training
复制链接

扫一扫

专栏目录