说明:
💡💡💡本文后续更新和完善将在新账号展开,请移步新地址:多模态论文笔记——dVAE(DALL·E的核心部件)
历史文章
机器学习
机器学习笔记——损失函数、代价函数和KL散度
机器学习笔记——特征工程、正则化、强化学习
机器学习笔记——30种常见机器学习算法简要汇总
机器学习笔记——感知机、多层感知机(MLP)、支持向量机(SVM)
机器学习笔记——KNN(K-Nearest Neighbors,K 近邻算法)
机器学习笔记——朴素贝叶斯算法
机器学习笔记——决策树
机器学习笔记——集成学习、Bagging(随机森林)、Boosting(AdaBoost、GBDT、XGBoost、LightGBM)、Stacking
机器学习笔记——Boosting中常用算法(GBDT、XGBoost、LightGBM)迭代路径
机器学习笔记——聚类算法(Kmeans、GMM-使用EM优化)
机器学习笔记——降维
深度学习
深度学习笔记——优化算法、激活函数
深度学习——归一化、正则化
深度学习——权重初始化、评估指标、梯度消失和梯度爆炸
深度学习笔记——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总
深度学习笔记——卷积神经网络CNN
深度学习笔记——循环神经网络RNN、LSTM、GRU、Bi-RNN
深度学习笔记——Transformer
深度学习笔记——3种常见的Transformer位置编码
深度学习笔记——GPT、BERT、T5
深度学习笔记——ViT、ViLT
深度学习笔记——DiT(Diffusion Transformer)
深度学习笔记——多模态模型CLIP、BLIP
深度学习笔记——AE、VAE
深度学习笔记——生成对抗网络GAN
深度学习笔记——模型训练工具(DeepSpeed、Accelerate)
深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)
前情提要
VAE
AE 和 VAE 在结构、目的和优化方式上存在多个重要区别:
特性 | AE | VAE |
---|---|---|
编码器输出 | 固定的低维向量(确定性的表示) | 隐藏变量的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2(表示潜在空间的分布) |
潜在空间 | 没有明确的分布假设 | 假设潜在空间遵循某种概率分布(通常为正态分布) |
解码器 | 从固定低维向量生成输入数据的近似 | 使用 重参数化技巧 从潜在变量的分布中采样,再通过解码器生成输入数据的近似 |
损失函数 | 仅有重构损失,最小化输入数据与重构数据的差异 | 重构损失 + KL 散度,既保证数据重构效果,又保证潜在空间的分布合理 |
目的 | 数据降维、特征提取或数据去噪 | 生成新数据(如图像生成、文本生成等),同时保留对输入数据的重构能力 |
生成新数据的能力 | 无法直接生成新数据 | 可以通过在潜在空间中采样生成与训练数据相似的全新数据 |
VQ-VAE
VAE vs. VQ-VAE
区别
需要明白的是,VAE的主要作用是生成数据;而VQ-VAE的主要作用是压缩、重建数据(与AE一样),如果需要生成新数据,则需要结合 PixelCNN 等生成模型。
- VAE 的核心思想是通过编码器学习潜在变量的
连续分布
(通常是高斯分布,非离散),并从该分布中采样潜在变量 z,然后由解码器生成数据。- VQ-VAE模型的目标是学习如何将输入数据编码为
离散潜在表示
,并通过解码器重建输入数据,量化过程通过最近邻搜索确定嵌入向量,是一个确定性操作,这一过程并不涉及离散采样。- 如果需要生成新数据,则需要在离散潜在空间中随机采样嵌入向量。VQ-VAE 本身没有内置采样机制,通常需要结合 PixelCNN 或PixelSNAIL 等模型来完成离散采样。
不可导问题及解决方法
- VAE 通过
连续潜在空间
和重参数化技巧
避免了采样操作的不可导问题。 - VQ-VAE 的
潜在空间是离散的
,量化过程是不可导的,通过在最近邻搜索中使用停止梯度传播
来解决不可导问题(dVAE中引入Gumbel-Softmax 替代停止梯度)。原本的VQ-VAE不涉及生成数据,所以不需要采样,如果需要生成数据,则需要结合 PixelCNN 等生成模型。
VAE 和 VQ-VAE 的不可导问题及解决方法:
特性 | VAE | VQ-VAE |
---|---|---|
潜在空间 | 连续空间 | 离散空间 |
不可导问题来源 | 采样操作不可导 | 最近邻搜索不可导 |
解决方法 | 重参数化技巧 | 停止梯度传播 |
实现方式 | 分离随机性,直接优化 μ , σ \mu, \sigma μ,σ | 解码器损失绕过量化过程优化编码器 |
适用场景 | 平滑采样和连续潜在变量建模 | 离散特征学习和高分辨率生成 |
重新参数化梯度是一种常用于训练变分自编码器(VAE)等生成模型的技术。它依赖于连续分布的可分解性,而 VQ-VAE 的离散分布(通过 one-hot 编码或 Codebook 表示)无法通过这种方式重新参数化。
VAE 的不可导问题及解决方法
不可导问题
- 在训练VAE时,我们希望从一个分布中采样出一些隐变量,以生成模型的输出。然而,由于采样操作是不可导的,因此通常不能直接对采样操作求梯度。为了解决这个问题,我们可以使用重新参数化技术。
- 在 VAE 中,潜在变量 z z z 是通过从编码器输出的分布 q ( z ∣ x ) q(z|x) q(z∣x) 中采样得到的: z ∼ N ( μ , σ 2 ) z \sim \mathcal{N}(\mu, \sigma^2) z∼N(μ,σ2)
- μ \mu μ 和 σ \sigma σ 是编码器生成的分布参数。
- 采样操作引入随机性,而随机采样本身不可导,因此无法通过梯度反向传播来优化编码器参数。
解决方法:重参数化技巧
- 重新参数化技术的基本思想是,将采样过程拆分为两步:首先从一个固定的分布中采样一些固定的随机变量,然后通过一个确定的函数将这些随机变量转换为我们所需的随机变量。这样,我们就可以对这个确定的函数求导,从而能够计算出采样操作对于损失函数的梯度。
VAE 通过 重参数化技巧(Reparameterization Trick) 将采样过程分解为可导部分和不可导部分:
- 分离随机性:
- 采样公式改写为:
z = μ + σ ⋅ ϵ , ϵ ∼ N ( 0 , 1 ) z = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1) z=μ+σ⋅ϵ,ϵ∼N(0,1)- ϵ \epsilon ϵ 是标准正态分布的随机噪声,采样只发生在 ϵ \epsilon ϵ 中。
- μ \mu μ 和 σ \sigma σ 是由编码器网络直接输出的,可导。
- 作用:
- 随机性仅由不可导的 ϵ \epsilon ϵ 控制,而 μ \mu μ 和 σ \sigma σ 的梯度可以正常计算,从而实现端到端训练。
VQ-VAE 的不可导问题及解决方法
不可导问题
- 在 VQ-VAE 中,潜在变量是通过将编码器输出 z e ( x ) z_e(x) ze(x) 映射到最近的嵌入向量(codebook 中的向量)得到的: z q ( x ) = arg min e k ∥ z e ( x ) − e k ∥ 2 z_q(x) = \arg\min_{e_k} \|z_e(x) - e_k\|_2 zq(x)=argekmin∥ze(x)−ek∥2
- 最近邻搜索是一个不可导操作,因为argmin或argmax 是一个离散操作,涉及离散索引 k k k,因此不可导。
解决方法:停止梯度传播(Stop Gradient)
VQ-VAE 使用 停止梯度传播(Stop Gradient) 技巧来解决不可导问题:
- 停止梯度:
- 在计算量化操作时,不允许梯度传播到最近邻搜索的部分。
- 假设 z q ( x ) z_q(x) zq(x) 是量化后的嵌入向量,VQ-VAE 中的梯度计算会直接将解码器损失作用到编码器输出 z e ( x ) z_e(x) ze(x),而不会涉及量化过程。
- 公式:
- z q ( x ) z_q(x) zq(x) 的生成:
z q ( x ) = e k , k = arg min i ∥ z e ( x ) − e i ∥ 2 z_q(x) = e_k, \quad k = \arg\min_{i} \|z_e(x) - e_i\|_2 zq(x)=ek,k=argimin∥ze(x)−ei∥2- 在优化过程中,损失的梯度会通过以下方式传播:
z q ( x ) = z e ( x ) + ( e k − z e ( x ) ) . d e t a c h ( ) z_q(x) = z_e(x) + (e_k - z_e(x)).detach() zq(x)=ze(x)+(ek−ze(x)).detach()
- ( e k − z e ( x ) ) . d e t a c h ( ) (e_k - z_e(x)).detach() (ek−ze(x)).detach() 表示停止梯度传播,仅用 z e ( x ) z_e(x) ze(x) 来优化编码器。