VQ-VAE

m0_67708072

已于 2023-12-16 19:39:33 修改

阅读量147

点赞数

分类专栏：网络模块的学习文章标签：机器学习深度学习人工智能

于 2023-12-16 19:25:38 首次发布

本文链接：https://blog.csdn.net/m0_67708072/article/details/135027259

版权

6 篇文章 0 订阅

订阅专栏

特点

稀疏的高维数据->压缩到很小的空间->解码器还原为高维对象。
后验分布 $q (z ∣ x)$ ，先验分布 $p (z)$ ，解码器 $p (x ∣ z)$ 。

VQ-VAE的三部分：

图像x输入编码器，得到 $z_e(x)$
latent embedding space: KxD，K个类别的向量，每个向量维度D。
编码器的输出 $z_e(x)$ 通过最近邻查找，找到距离最近的离散向量 $e_j$ 的索引 $k$ 。
$q(z=k|x)=\left\{\begin{matrix} 1 &for \ k=argmin_j||z_e(x)-e_j||_2\\ 0&otherwise \end{matrix}\right.$
后验分布概率 $q (z ∣ x)$ 是独热编码，隐变量z就是一个索引。解码器输入是索引k对应的向量 $e_k$ 。
解码器对 $e_k$ 解码，得到重构的x。

编码器，解码器，embedding space都需要训练。

重构loss
KL散度loss，后验分布和先验分布的距离，但这里先验分布是均匀分布，后验分布也是类别分布，两个类别分布之间的KL散度是常数，所以VQ-VAE忽略KL散度loss。
codebook loss：为了让embedding space训练学习，让embedding vector $e$ 去接近编码器输出 $z_e(x)$
commitment loss->embedding space没有约束，如果 $e$ 学得不够快，可能会无限膨胀，所以commitment loss让 $z_e(x)$ 接近 $e$ ，让 $z_e(x)$ 走的慢一点。commitment loss前面一般会有一个系数 $\beta$ ，比如0.25.

如何评估VQ-VAE的性能？拿一张图片编码-离散化-解码，对比重构后的图片和原图差距，看重建效果。
训练过程，如何判断模型是否在有效训练？把编码器的类别分布信息熵打印出来。-plogp，均匀分布熵最大，熵很小说明类别变化很小，可能输出只有一个类别->后验坍塌。
训练好VQ-VAE后，如何生成新的图片？原本的VQ-VAE其实只是一个压缩器。无监督随机生成：大规模图片预训练VQ-VAE模型，某张图片输入VQ-VAE，那就有这张图片的离散化向量，用另一个模型对其自回归建模，用自回归生成的压缩图片，解码生成新的图片。（让自回归模型学习一个离散化分布，这样可以通过该模型采样离散向量，解码就可以产生不同的图片）
条件生成：大规模图片训练VQ-VAE模型，得到一个有效的后验编码器；用RNN以提示prompt作为RNN的条件输入，对离散向量自回归建模。训练好的RNN模型，给定prompt自回归生成离散向量，解码即可条件生成图片。