Forth paper:《PIXELVAE: A LATENT VARIABLE MODEL FOR NAT》阅读笔记

相对而言,此篇paper并没有太多去证明该模型背后的数学原理。而是简单的讲解了本文的模型的创新(将pixel CNN 和VAE进行结合),并在不同的数据集上进行experminent.

pixel RNN----pixel CNN----gated pixel CNN----pixel VAE----gated pixel VAE

1.abstract

自然图像建模是无人监督学习的一个里程碑式的挑战。变分自编码器(VAE)学习一个有用的潜在的表示和模型的全局结构,但是很难捕获小细节。PixelCNN的模型细节反映很好了,但是缺少一个潜在的关系的衡量(隐变量),并且很难扩展到捕获大型结构。我们提出了PixelVAE,一个基于PixelCNN的自动回归解码器的VAE模型(结合了VAE和pixelCNN的优点)。我们的模型只需要很少的昂贵的自回归层,与PixelCNN相比,并且学习了比标准VAE更压缩的潜在变量,同时仍然能捕获更多的重要特征。最后,我们将模型引入到不同尺度下的潜在变量的层次结构中

2.Related Work

在相关工作部分,介绍了pixelCNN,然后引出VAE,并在在该部分也阐述了GAN 的效果,在实验部分做出了结果对比。

3.Pixel VAE model

PixelVAE,利用PixelCNN来为VAE建模一个自回归的编码器。VAE假设像素之间是条件独立的,会有模糊的样本;而PixelCNN,对联合分布进行建模,产生锐利的样本,但是缺乏对下游任务更有用的潜在的表示。PixelVAE结合了这两个结构的优点,提供了一个有意义的潜在的表达,同时产生了尖锐的样本。

我们首先将z转换成一系列的卷积层,将其转换成具有与输出图像相同的空间分辨率的功能图,然后将结果的特征映射与图像连接起来。随后,由几个PixelCNN蒙面的卷积层和最后一个PixelCNN 256-way的softmax输出进一步处理了这些连接的功能图

pixel VAE:在解码器中使用的PixelCNN层非常少,依赖于潜在的变量来对输入的结构进行建模,比我们的PixelCNN层的联合接受域更大

                                    

通过分层的潜在空间分解来生成自上而下的方法。推理网络通过组合连续的确定性函数来计算随机变量的参数,从而产生潜在的变量。虚线表示对成本的贡献。

 

4.结论:

本文介绍了一种具有自回归解码器的自然图像VAE模型,该模型在多个数据集上实现了较强的性能。我们探索了模型的属性,表明它可以产生比标准VAE更多的压缩的潜在表示,并且它可以使用比PixelCNN更少的自回归层。我们在64 x64的ImageNet上建立了一个新的最先进的MNIST数据集,并演示了我们的模型在LSUN卧室中生成高质量的样本。

PixelVAE通过忽略图片中的小结构来学习压缩的表示,这对于下游任务来说是非常有用的。在未来的工作中,我们可以进一步探索我们的模型的半监督分类和表示学习能力

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值