万字长文解读深度学习——VQ-VAE和VQ-VAE-2

李歘歘

已于 2025-01-09 23:40:58 修改

阅读量2.8k

点赞数 35

分类专栏：人工智能 # 深度学习文章标签：深度学习人工智能 vae vq-vae vqvae

于 2024-12-04 09:46:35 首次发布

本文链接：https://blog.csdn.net/qq_42410605/article/details/144227012

版权

人工智能同时被 2 个专栏收录

56 篇文章

订阅专栏

深度学习

16 篇文章

订阅专栏

说明：
💡💡💡本文后续更新和完善将在新账号展开，请移步新地址：多模态论文笔记——VQ-VAE和VQ-VAE-2

历史文章

机器学习

深度学习

AE和VAE

参考：深度学习——AE、VAE

VQ-VAE

论文：Neural Discrete Representation Learning

VQ-VAE（Vector Quantized Variational AutoEncoder，向量量化变分自编码器） 主要是将连续潜在空间的点映射到最近的一组离散的向量（即codebook中的向量）。模型引入了离散潜在空间的思想，克服了传统 VAE 中连续潜在空间表示的局限性，能够有效学习高质量的离散特征表示。

传统 VAE 的问题

连续潜在空间的限制：
- VAE 的潜在变量 $z$ 是连续值，这会导致模型生成的表示较为分散、不够紧凑，无法高效捕获复杂数据的离散结构（如图像中的清晰边缘、重复纹理，或离散的语音特征）。
后验坍塌问题：
- 潜在变量的表示能力未被充分利用。指编码器生成的潜在表示 $z$ 对解码器的输出贡献非常小，可能部分或完全被忽略。

当 KL 散度正则化过强时，编码器可能输出接近于先验分布（如 $\mathcal{N}(0, 1)$ ），导致潜在变量 $z$ 的信息丢失。

VQ-VAE 与 VAE 的对比

特点	VAE	VQ-VAE
潜在空间	连续空间	离散空间
潜在变量 $z$	每一维是连续的实数值，包括所有的有理数（如整数、小数和分数）以及无理数	每一维是离散的整数
潜在分布建模	高斯分布	离散分布（通过 codebook 表示）

VQ-VAE 的主要改进

解决后验坍塌问题：
- 通过 codebook 的离散化潜在变量，解码器被迫使用潜在变量的所有信息，避免后验坍塌。
增强生成质量：
- VAE 生成的图像质量相对有限，而 VQ-VAE 可以生成更高分辨率和更清晰的图像。
为后续模型奠定基础：
- VQ-VAE 的离散表示为 DALL·E 和 VQ-GAN 等模型的开发提供了关键技术支持。

VQ-VAE 的核心思想

关键点：

VQ-VAE 的最大特点是引入了 向量量化（Vector Quantization），将连续的潜在变量 $z$ 离散化。这有助于模型捕捉和表示更加丰富和复杂的数据分布。
将编码器输出的连续潜在向量 $z_e(x)$ 映射到离散的代码簇（codebook）中最近的离散向量 $e_k$ ，编码范围更加可控。