使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力
体验网站:https://var.vision/
论文链接:https://arxiv.org/abs/2404.02905
开源代码:https://github.com/FoundationVision/VAR
开源模型:https://huggingface.co/FoundationVision/var
-
离散编码:编码器将图片转化为离散 token map R=(r1, r2, …, rk),分辨率从小到大
-
连续化:r1 至 rk 先通过嵌入层转换为连续 feature map,再统一插值到 rk 对应最大分辨率,并求和
-
连续解码:求和后的 feature map 经过解码器得到重建图片,并通过重建 + 感知 + 对抗三个损失混合训练
自回归阶段:
-
自回归第一步是通过起始 token [S] 预测最初的 1x1 token map
-
随后每一步,VAR 都基于历史所有的 token map 去预测下一个更大尺度的 token map
-
训练阶段,VAR 使用标准的交叉熵损失监督这些 token map 的概率预测
-
测试阶段,采样得到的 token map 会借助 VQVAE 进行连续化、插值求和、解码,从而得到最终生成的图像。