【神经网络】GAN原理总结，CatGAN

最新推荐文章于 2024-07-28 09:04:53 发布

Always_ease

最新推荐文章于 2024-07-28 09:04:53 发布

阅读量5.1k

点赞数 2

分类专栏：人工智能文章标签：人工智能神经网络 GAN

人工智能专栏收录该内容

7 篇文章 1 订阅

订阅专栏

定义及原理：

生成器（G）generator：接收一个随机的噪声z（随机数），通过这个噪声生成图像。G的目标就是尽量生成真实的图片去欺骗判别网络D。

判别器（D） discriminator：对接收的图片进行真假判别。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的图片。D的目标就是尽量辨别出G生成的假图像和真实的图像。

GAN的主要灵感来源于博弈论中零和博弈的思想，应用到深度学习神经网络上来说，就是通过G和D不断博弈，进而使G学习到数据的分布，如果用到图片生成上，则训练完成后，G可以从一段随机数中生成逼真的图像。

训练过程中，G和D构成了一个动态的“博弈过程”，最终的平衡点即纳什均衡点：生成器生成的图像接近于真实图像分布，而判别器识别不出真假图像，对于给定图像的预测为真的概率基本接近 0.5（相当于随机猜测类别）

过程

第一代的Generator，然后他产生一些图片
训练产生第一代discriminator，能够区分人工产生的和真实的图片
训练第二代Generator，使其产生的图片骗过第一代discriminator
以此类推。。。

优点

只用到了反向传播
相比其他所有模型, GAN可以产生更加清晰，真实的样本
GAN应用到一些场景上，比如图片风格迁移，超分辨率，图像补全，去噪，避免了损失函数设计的困难，不管三七二十一，只要有一个的基准，直接上判别器，剩下的就交给对抗训练了

缺点

训练GAN需要达到纳什均衡,有时候可以用梯度下降法做到,有时候做不到.我们还没有找到很好的达到纳什均衡的方法,所以训练GAN相比VAE或者PixelRNN是不稳定的,但我认为在实践中它还是比训练玻尔兹曼机稳定的多
GAN不适合处理离散形式的数据，比如文本
GAN存在训练不稳定、梯度消失、模式崩溃的问题（目前已解决）

应用

图片生成
替换判别器为一个分类器，做多分类任务，而生成器仍然做生成任务，辅助分类器训练
和强化学习结合，目前一个比较好的例子就是seq-GAN

CatGAN

无监督的分类会被转化为一个聚类问题，通常是以某种距离作为度量准则，从而将数据划分为多个类别，而本文则是采用数据的熵来作为衡量标准构建来CatGAN (ICLR-2016) 。具体来说，对于真实的数据，模型希望判别器不仅能具有较大的确信度将其划分为真实样本，同时还有较大的确信度将数据划分到某一个现有的类别中去；而对于生成数据却不是十分确定要将其划分到哪一个现有的类别，也就是这个不确信度比较大，从而生成器的目标即为产生出那些“将其划分到某一类别中去”的确信度较高的样本，尝试骗过判别器。接下来，为了衡量这个确信程度，作者用熵来表示，熵值越大，即为越不确定；而熵值越小，则表示越确定。然后，将该确信度目标与原始GAN的真伪鉴别的优化目标结合，即得到了CatGAN的最终优化目标。

对于半监督的情况，对有标签数据计算交叉熵损失，而对无标签数据计算上面的基于熵的损失，然后在原来的目标函数的基础上进行叠加即得，当用该半监督方法进行目标识别与分类时，其效果虽然相对较优，但相对当下state-of-the-art的方法并没有比较明显的提升。但其基于熵损失的无监督训练方法却表现较好，其实验效果如下图所示，可以看到，对于如下的典型环形数据，CatGAN可以较好地找到两者的分类面，实现无监督聚类的功能。