VQVAE：Neural Discrete Representation Learning

最新推荐文章于 2024-12-04 09:46:35 发布

是静宝呀

最新推荐文章于 2024-12-04 09:46:35 发布

阅读量152

点赞数 1

论文名称： Neural Discrete Representation Learning 开源地址发表时间：NIPS2017
作者及组织：Aaron van den Oord,Oriol Vinyals和Koray Kavukcuoglu, 来自DeepMind。

1、VAE

简单回顾下VAE的损失函数，ELBO的下界为：
VQVAE：Neural Discrete Representation Learning_损失函数
其中第一项为解码器的重构损失(regression loss) ;第二项为正则项，用KL散度来使Encoder----后验概率和先验分布近似，通常假设为多元标准正太分布，该项主要防止VAE坍塌到一个点，毕竟是生成模型。
而VQVAE和VAE主要不同：Encoder输出是离散的，而不是连续的隐变量z。

1、方法

1.1.模型结构

VQVAE：Neural Discrete Representation Learning_损失函数_05

VQVAE：Neural Discrete Representation Learning_损失函数_06 ，然后计算中每条特征向量跟codebook的最接近的向量的索引，得到 , 然后用codebook中向量来替换得到。最后经过Decoder得到

1.2.训练

先说下总体损失函数，其实跟VAE的损失函数类似：
VQVAE：Neural Discrete Representation Learning_反向传播_13

其中第一项就是VAE中的重构损失，但有个问题：在用L2 Loss计算重构损失后，反向传播时，由于在codebook中argmin这个操作是不可导的，这样就优化不了Encoder，于是本文直接将 VQVAE：Neural Discrete Representation Learning_反向传播_11 节点的梯度拷贝给了，使得反向传播得以继续。具体的表达式如下：

式中的表示 .detach() 操作，由于VQVAE多了一个可学习的codebook，而重构损失并没有梯度传过去。因此损失第二项就是让 VQVAE：Neural Discrete Representation Learning_深度学习_18 逼近