相对而言,此篇paper并没有太多去证明该模型背后的数学原理。而是简单的讲解了本文的模型的创新(将pixel CNN 和VAE进行结合),并在不同的数据集上进行experminent.
pixel RNN----pixel CNN----gated pixel CNN----pixel VAE----gated pixel VAE
1.abstract
自然图像建模是无人监督学习的一个里程碑式的挑战。变分自编码器(VAE)学习一个有用的潜在的表示和模型的全局结构,但是很难捕获小细节。PixelCNN的模型细节反映很好了,但是缺少一个潜在的关系的衡量(隐变量),并且很难扩展到捕获大型结构。我们提出了PixelVAE,一个基于PixelCNN的自动回归解码器的VAE模型(结合了VAE和pixelCNN的优点)。我们的模型只需要很少的昂贵的自回归层,与PixelCNN相比,并且学习了比标准VAE更压缩的潜在变量,同时仍然能捕获更多的重要特征。最后,我们将模型引入到不同尺度下的潜在变量的层次结构中
2.Related Work
在相关工作部分,介绍了pixelCNN,然后引出VAE,并在在该部分也阐述了GAN 的效果,在实验部分做出了结果对比。
3.Pixel VAE model
PixelVAE,利用PixelCNN来为VAE建模一个自回归的编码器。VAE假设像素之间是条件独立的,会有模糊的样本;而PixelCNN,对联合分布进行建模,产生锐利的样本,但是缺乏对下游任务更有用的潜在的表示。PixelVAE结合了这两个结构的优点,提供了一个有意义的潜在的表达,同时产生了尖锐的样本。
我们首先将z转换成一系列的卷积层,将其转换成具有与输出图像相同的空间分辨率的功能图,然后将结果的特征映射与图像连接起来。随后,由几个PixelCNN蒙面的卷积层和最后一个PixelCNN 256-way的softmax输出进一步处理了这些连接的功能图
pixel VAE:在解码器中使用的PixelCNN层非常少,依赖于潜在的变量来对输入的结构进行建模,比我们的PixelCNN层的联合接受域更大
通过分层的潜在空间分解来生成自上而下的方法。推理网络通过组合连续的确定性函数来计算随机变量的参数,从而产生潜在的变量。虚线表示对成本的贡献。
4.结论:
本文介绍了一种具有自回归解码器的自然图像VAE模型,该模型在多个数据集上实现了较强的性能。我们探索了模型的属性,表明它可以产生比标准VAE更多的压缩的潜在表示,并且它可以使用比PixelCNN更少的自回归层。我们在64 x64的ImageNet上建立了一个新的最先进的MNIST数据集,并演示了我们的模型在LSUN卧室中生成高质量的样本。
PixelVAE通过忽略图片中的小结构来学习压缩的表示,这对于下游任务来说是非常有用的。在未来的工作中,我们可以进一步探索我们的模型的半监督分类和表示学习能力