vqvae详细解释

会写代码的孙悟空

已于 2024-07-03 13:49:37 修改

阅读量1.1w

点赞数 24

分类专栏： Transformer 文章标签：深度学习

于 2021-10-28 21:18:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/artistkeepmonkey/article/details/121023532

版权

模型综述 #
VQ-VAE（Vector Quantised - Variational AutoEncoder）首先出现在论《Neural Discrete Representation Learning》

VAE假设隐向量分布服从高斯分布
VQVAE假设隐向量服从类别分布

PixelCNN #
要追溯VQ-VAE的思想，就不得不谈到自回归模型。可以说，VQ-VAE做生成模型的思路，源于PixelRNN、PixelCNN之类的自回归模型，这类模型留意到我们要生成的图像，实际上是离散的而不是连续的。以cifar10的图像为例，它是32×32大小的3通道图像，换言之它是一个32×32×3的矩阵，矩阵的每个元素是0～255的任意一个整数，这样一来，我们可以将它看成是一个长度为32×32×3=3072的句子，而词表的大小是256，从而用语言模型的方法，来逐像素地、递归地生成一张图片（传入前面的所有像素，来预测下一个像素），这就是所谓的自回归方法：
p(x)=p(x1)p(x2|x1)…p(x3n2|x1,x2,…,x3n2−1)

其中p(x1),p(x2|x1),…,p(x3n2|x1,x2,…,x3n2−1)每一个都是256分类问题，只不过所依赖的条件有所不同。

自回归的方法很稳妥，也能有效地做概率估计，但它有一个最致命的缺点：慢。因为它是逐像素地生成的，所以要每个像素地进行随机采样，上面举例的cifar10已经算是小图像的，目前做图像生成好歹也要做到256×256×3的才有说服力了吧，这总像素接近20万个（想想看要生成一个长度为5万的句子），真要逐像素生成会非常耗时。而且这么长的序列，

最低0.47元/天解锁文章

会写代码的孙悟空

关注

24
点赞
踩
77

收藏

觉得还不错? 一键收藏
打赏
5
评论
vqvae详细解释

模型综述 #VQ-VAE（Vector Quantised - Variational AutoEncoder）首先出现在论《Neural Discrete Representation Learning》作为一个自编码器，VQ-VAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

会写代码的孙悟空 赠人玫瑰手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。