通过代码学习 VQ-VAE

最新推荐文章于 2025-03-19 16:35:03 发布

田神

最新推荐文章于 2025-03-19 16:35:03 发布

阅读量1.7w

点赞数 41

分类专栏：机器视觉机器学习与神经网络文章标签：实现分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/StreamRock/article/details/93881187

版权

本文深入探讨VQ-VAE，一种离散化变分自编码器，通过分析DeepMind的工作和一个简单的GitHub实现，揭示其编码、解码和矢量量化过程，以及损失函数的作用，并探讨其在图像表示学习的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VQ-VAE（Vector Quantised Variational AutoEncoder，矢量量化变分自动编码）是【1】提出的一种离散化VAE方案，近来【2】应用VQ-VAE得到了媲美于BigGan的生成模型。由此可见， VQ-VAE 有着强大的潜力，且【1】和【2】皆为DeepMind的作品，让我们通过代码来认识它，学习它。

一、简介

光看论文一知半解，需要看看它的实现。我在GitHub中找到一个很简单的代码【3】，不妨一起研究研究。以下叙述是结合【3】的实现一起叙述的。
VQ-VAE属于VAE范畴，它有着与一般VAE都有的Encoder、code（编码）和Decoder，而不同之处在于其code并不是由Encoder直接输出得到，而是经过了一个矢量量化后才得到的，其结构图如下：
在这里插入图片描述
图1 VQ-VAE结构图【3】

图2 VQ-VAE数据流图【1】

结合图1、图2 叙述其工作流程

输入x，其数据结构为[B,3,32,32]，由于【3】采用了CIFAR10作为训练集，因此输入参数如此，B是batch的数量；
经过Encoder，得到 $Z_e(x)$ , 其结构为 [B, C=D, H, W]，其中C是指编码器的Conv网络输出的Channels 的数量，而D是指矢量量化中矢量的维度，也就是后续查表（Embedding）所存储矢量的维度，另外，H,W表示输入图像经编码器处理后的长和宽，本例中，编码器输入是32 * 32，输出时为8 * 8，即H=8, W=8；
将 $Z_e(x)$ 变形为 [B * H * W, D]，即每一个图片有 H*W 个编码，每个编码是D维，计算这些编码（B * H * W）与 Embedding 中 K 个矢量（在【3】中 K=512，表示矢量量化编码的矢量个数)之间的距离，通过最近邻算法构成如下映射：
$q(z=k|x)=\left\{ \begin{matrix} 1 & \text{for } k=\arg\min_j \Vert Z_e(x)-e_j\Vert_2 \\ 0 & \text{otherwise} \\ \end{matrix}\right. \qquad (1)$
公式（1）表示当输入为 $x$ 时， $z = k$ 的概率是：1）当 $k$ 是矢量序列 $\{e_1,e_2,\cdots,e_K\}$ 中与 $Z_e(x)$ 最近的矢量的下标时，条件概率为1；2）否则为0。这里的矢量距离度量采用常见的欧拉距离 $\Vert \cdot \Vert_2$ ，公式（1）便是最近邻算法的实现。
$z_q(x)=e_k \ \text{where} \ k=\arg\min_j \Vert Z_e(x)-e_j\Vert_2 \qquad(2)$

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。