GAN笔记_李弘毅教程(七)Info GAN,VAE-GAN,BiGAN

最新推荐文章于 2024-06-29 15:44:19 发布

ChunyeLi

最新推荐文章于 2024-06-29 15:44:19 发布

阅读量3.4k

点赞数 1

分类专栏：深度学习文章标签： GAN

本文链接：https://blog.csdn.net/sinat_32512123/article/details/83994784

版权

深度学习专栏收录该内容

28 篇文章 3 订阅

订阅专栏

文章目录

InfoGAN
VAE-GAN
BiGAN
Triple GAN
Domain-adversarial training
Original Seq2seq Auto-encoder

Feature Extraction

InfoGAN

手写数字生成，input改变一个维度，output看不出什么变化。
input的变化对output的影响不明确

怎么能看出这种变化的根源？
用InfoGAN
InfoGAN是什么？
输入z,前x维为c，后xx维为z’,用classifier根据G生成的x预测输入的c是什么。
根据输入的vector编码成image,然后image再被译码成vector,这个过程是和一般的"Autor-encoder"相反的，所以为Autor-encoder”
如果G想要让classifier成功预测出c，那么就会很明显地把c放在明显位置，导致生成图片不理想，这时候需要D发现这种错误。
D和classifier参数共享，它们输入的都是图片，输出的分别是scalar和c，所以它们在最后一层不一样。

G要学到c对X有明确影响，所以classifier才能预测出c。c代表了x的某些特征。z’对x的影响是随机的。
是先被归为c，用InfoGAN训练，所以这些维度可以对X有明确影响。

InfoGAN的实验结果
（a）改变c的第一维，决定输出是什么数字
（b）普通GAN的结果
（c）改变c的第二维，决定输出数字的角度
（c）改变c的第三维，决定输出数字的粗细

VAE-GAN

用GAN强化VAE,也可以看作是VAE强化GAN。
VAE没有inout和output的loss,所以生成图像会很模糊，加上D后，会让image更加realistic。
GAN中的G从没看过真正的图片长什么样，需要花大量时间去调参数，才能让G学会产生真正的image,加上Encoder后，会稳

Encoder:
让x和x经过Encoder和Decoder生成的 ${x^i}$ ~ 越接近越好，
同时要让z的分布和 ${x^i}$ 通过Encoder产生的 ${z^i}$ ~ 分布差距越小越好
Decoder（G）：
让x和x经过Encoder和Decoder生成的 ${x^i}$ ~ 越接近越好
让Encoder产生的图片（无论是） ${x^i}$ ~还是 ${x^i}$ ^{能骗过D，${x^i}$}是P（z）另外取出的Z生成的图像
D:
对真实图片分数提高，对Decoder（G）产生的两种图片分数降低。

注意：第10个点出现错误，En改成De。

还有一种D，可以辨别出输入的图片是real的，还是generated，还是reconstructed:

BiGAN

Encoder和Decoder的输入输出无关，D同时输入x和z,判断它们来自Encoder还是Decoder

D给Encoder高分，Decoder低分，（相反也可以）。
Encoder要让D给低分，Decoder要让D给高分，具体算法如下：

D做的就是衡量P与Q的差异。GAN的目的是让P和Q越近越好。

如果单用Encoder和Decoder，用输入和输出的方法，貌似也可以达到这个效果，如下图的两个模型，但为什么要引入GAN呢？
这两个模型的optimal solution是一样的，但是它们的error service是不一样的，得到的结果是一样的。
实际上是不可能达到输入和输出完全一样的，所以不可能收敛到optimal solution，在没有收敛到optimal solution的情况下，这两种模型训练出来的结果就会不一样。（模糊）
这两种模型输入的是一张图片，输出的会是同一张图片，只是会变模糊。
但BiGAN是输入一张图片，输出的是另一张同类型的图片，但会很清晰。BiGAN能抓住语义信息。

Triple GAN

由三部分组成，分别是G,D,Classifier。 Triple GAN本身是一个conditional GAN

Domain-adversarial training

当training data和testing data类型不同时，用G分别输入两个数据集的图片，输出两个feature，让这两个feature有相同的distribution。那么就会让两个不同类型的数据集match。

下图中的feature extractor就是G，Domain classfier就是D，Label predictor是classifier看输出的feature属于哪个数字（标签）。理想状态下G不仅要欺骗D，同时还要满足类别标签。实际上不一定一起，是迭代更新，D在训练前是一个负号。一起train会不是很稳；先train D，再train classfier，最后train G，会比较稳。

Original Seq2seq Auto-encoder

中间的latent space包括多种information，

但有时候往往只需要其中一种information，比如说声纹识别，如何单独取出一种information，用来训练？
当是同一个人的语音时，抽出来的特征尽量相同。

当是不同人的语音时，抽出来的特征尽量不同。

但声音信号有时候也藏在发音信号中，这时候就用到Domain-adversarial training
另外train一个classifier,输入两个vector,让classifier判断这是同一个人说的还是不同人说的，同一个人分数提高，不同人分数降低。
这时候就组成了一个GAN，让Encoder欺骗classifier。 ${x^j}$ 是生成的语音。就可以过滤掉speaker信息

phonetic 表示是不同词汇的发音
speaker表示同一个人说的
实验结果：