VQ-VAE

2.2.1. 出处 NIPS 2017《Neural Discrete Representation Learning》

作为一个自编码器,VQ-VAE的一个明显特征是它编码出的编码向量是离散的,换句话说,它最后得到的编码向量的每个元素都是一个整数,这也就是“Quantised”的含义,我们可以称之为“量子化”(跟量子力学的“量子”一样,都包含离散化的意思)。

2.2.2. VQ-VAE 的思想

强烈推荐参考文章:

VQ-VAE的简明介绍:量子化自编码器 - 科学空间|Scientific Spaces

VQ:向量量化 Vector Quantization

AE:自动编码器 Auto Eecoder

VAE:变分自动编码器 Variational Auto Encoder

  1. 自回归模型:

自回归模型留意到我们要生成的图像,实际上是离散的而不是连续的。以cifar10的图像为例,它是32×32大小的3通道图像,换言之它是一个32×32×3的矩阵,矩阵的每个元素是0~255的任意一个整数,这样一来,我们可以将它看成是一个长度为32×32×3=3072的句子,而词表的大小是256,从而用语言模型的方法,来逐像素地、递归地生成一张图片(传入前面的所有像素,来预测下一个像素),这就是所谓的自回归方法:p(x) = p(x1)p(x2|x1)…p(x3n2|x1,x2,…,x3n2−1) 其中p(x1),p(x2|x1),…,p(x3n2|x1,x2,…,x3n2−1)每一个都是256分类问题,只不过所依赖的条件有所不同。

自回归模型在图像生成上的研究拓展主要在以下两个方面:

  • 设计如何排列递归的顺序(由于图像本身不是一个一维的句子)
  • 如何加速采样的过程(传统的递归采样RNN,不能并行效率低下)

原始的自回归还有一个问题,就是割裂了类别之间的联系。虽然说因为每个像素是离散的,所以看成256分类问题也无妨,但事实上连续像素之间的差别是很小的,纯粹的分类问题捕捉到这种联系。更数学化地说,就是我们的目标函数交叉熵是−logpt,假如目标像素是100,如果我预测成99,因为类别不同了,那么pt就接近于0,−logpt就很大,从而带来一个很大的损失。但从视觉上来看,像素值是100还是99差别不大,不应该有这么大的损失。

  1. 解决问题:

为了解决自回归模型的问题,VQ-VAE 提出的解决办法是采用先降低维度,然后再对编码向量用 PixelCNN Conditional Image Generation with PixelCNN Decoders 建模

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值