GAN,Generative Adversarial Network.
起源于2014年,NIPS的一篇文章,Generative Adversarial Net.
GAN, 是一种二人博弈的思想,双方利益之和是一个常数,是固定的。你的利益多点,对方利益就少点。
GAN里面,博弈双方是:一个叫G(生成模型),另一个叫D(判别模型)。
两个模型都有各自的输入输出(类似于函数)。
生成模型(G):输入是噪声、样本(一组随机数),输出是一个逼真的样本。
判别模型(D):相当于二分类器(0-1),判断输入样本是真是假。(类似于匹配模型,输入两个样本,输出是否匹配)真样本标1,生成的假样本标0.
GAN模型最终目标:判别器和生成器的对抗,判别器尽可能提高判别能力(判断样本是真是假);生成器尽可能提升样本生成的真实性,让判别器判别不出真假。
判别器对于真假样本输出概率都是0.5、这时候就平衡了。
对于设计者的我们,希望谁赢就设计成什么样的网络。 要得到以假乱真的样本,就希望生成样本不被判别器判断出来。就输出0.5的概率。
想训练判别器,二分类,标1,标0.
想训练生成器,需要联合判别器一起训练,才会形成误差,假样本全部设为1,不要判别器的参数发生变化。
GAN用于提升语音情感识别
1.一个vanilla GAN,学习高维向量的低维表示的分布,
2.一个conditional GAN, 学习高维特征向量分布附带它所属的情感类别标签。
用实际数据训练,去生成数据,在分类性能上有明显提升。
用speech data去做情感识别现在很流行,该数据收集很容易,数据无损,便宜。
可是数据size规模受限,
GAN在图像领域很popular,生成看起来很真实的图像,在语音情感识别中也可以。
- a vanilla GAN, 生成一个实际向量的压缩版本;
- a conditional GAN, 生成实际的高维向量(从压缩版本)
实验目标:评估 这些合成的特征数据,可以带来多少性能提升。
GAN在图像生成,图像转换,对话生成上,已经表现很好。
主要是学习特征表示。