AE&VAE&VQ-VAE

最新推荐文章于 2024-12-23 21:00:00 发布

Jeffrey-zh

最新推荐文章于 2024-12-23 21:00:00 发布

阅读量247

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Jeffrey_0711/article/details/133894443

版权

在这里插入图片描述

在这里插入图片描述

样本的分布P(z)并不是很好学，VQ-VAE就使用了一个codebook去替代了VAE中学习样本分布的过程，我们假设codebook是KxD维的，其中K是指codebook的长度，一般设定为8192维，而D则是每一维向量的长度，一般设为512
codebook的长度可以简单的理解为codebook对应于k个聚类中心
流程：
1. 将图片送入encoder提取特征图HxWxD
2. 将特征图每一个像素点的向量与codebook作比较将codebook中与之最相似的向量ei的索引i存入HxW的特征矩阵q(z|x)中
3. 将特征矩阵中的每个index用ei来表示得到新的feature map—z_q(x)，维度为HxWxD
4. 该特征图作为Decoder的输入，最终通过Decoder得到重构后的图片
损失函数：

1.第一部分为重构损失，将原本能够正常计算出来的codebook身上的梯度dL/dz_q直接作为Encoder的梯度;仅用这个reconstruction loss就实现了Encoder、Decoder一起进行训练

第二部分用来训练codebook,最小化z_e(x)和embedding e之间的距离。公式中sg表示stopgradient operator，即在前向计算的时候保持相应的量不变，但在后向计算的时候使得梯度为0
第三部分训练模型的Encoder部分，目的是为了让Encoder的输出稳定在一个codebook聚类，而不是在codebook内乱跳