原文链接
Autoregressive Image Generation without Vector Quantization
Li T, Tian Y, Li H, et al. Autoregressive Image Generation without Vector Quantization[J]. arXiv preprint arXiv:2406.11838, 2024.
https://arxiv.org/abs/2406.11838
本博文仅在简介文章主要内容的基础上做一些讲解,文中使用“【】”括住的为非原文内容。更多细节请参考原文。原文于24年6月17日上传arXiv,作者单位包括MIT、Google Deepmind和清华大学。
摘要
原文摘要翻译
传统观点认为,自回归图像生成模型通常需要使用向量量化的token。我们观察到,虽然离散值空间可以方便地表示类别分布,但它并不是自回归建模的必要条件。在这项工作中,我们提出了一种使用扩散过程来建模每个token概率分布的方法,这使得我们可以在连续值空间中应用自回归模型。我们不再使用类别交叉熵损失,而是定义了一种“扩散损失”函数来建模每个token的概率。这种方法消除了对离散值tokenizer的需求。我们评估了其在各种场景中的有效性,包括标准的自回归模型和广义的掩码自回归(MAR)变体。通过去除向量量化,我们的图像生成器在保持序列建模速度优势的同时取得了良好