对抗生成网络(GAN)和贝叶斯变分自编码是最为主要的两种数据生成模型,目前的生成对抗网络的一些改良技术已经实现了非常逼真的图像link。
此外生成模型也是非监督学习的主要驱动力之一,假若人工神经网络已经具备了自我生成栩栩如生的真实图像的能力,我们亦可以说人工神经网络已经具备了想象和创作的能力,具有了想象和创作能力的个体当然已经掌握了一些抽象的概念,而非监督学习不就是让人工智能自我去摸索这个世界并掌握一定的抽象概念吗?
而从非监督学习研究角度来看,GAN仍然有一些美中不足的地方,现有的很多具有很好效果的GAN并不是完全非监督的,而是人为的加入了很多带标签数据的半监督学习link。传统的GAN生成数据是通过一组完全随机的z隐含变量得到,这个z基本是不可控的,我们很难通过控制z中某数的大小变化让生成的图像变大变小或进行旋转等等简单操作,如果人工智能连这样的简单特性都不能稳定控制,那么我们很难说它已经具备了这些非常显著的人类易于掌握的概念。
infogan正是基于这一问题而提出的GAN修正模型,其在GAN优化函数中引入了一个有互信息最小下界得来的正则项。非常简单却又非常精彩。
互信息
互信息一般用来度量一个随机变量中包含的关于另一个随机变量的信息量。其离散形式有下式表示:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(1)
其具备如下特性:
I(X;Y)=H(Y)−H(Y|X)=H(X)−H(X|Y)(2)
这里注意 H(Y|X) 是条件熵等于 ∑x∈Xp(x)H(Y|X=x) , 继续推导:
H(Y|X)=∑x∈Xp(x)∑y∈Yp(y|x)log