这篇论文的主要内容围绕着一个核心问题:是否有必要将自回归模型与向量量化的表示方式绑定在一起,特别是在图像生成领域?作者团队来自麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)、谷歌DeepMind以及清华大学,他们挑战了这一传统观点,并提出了一个新的方法来避免向量量化,从而在连续值域中应用自回归模型生成图像。
主要贡献与创新点
1. 提出无向量量化的自回归图像生成方法**:论文指出虽然离散值空间有助于表达分类分布,但向量量化并非自回归建模的必要条件。研究团队引入了一种基于扩散过程的方法来建模每个token的概率分布,允许自回归模型在连续值空间中工作,从而避开了传统的离散化步骤。
2. 扩散损失函数(Diffusion Loss):为了替代传统的类别交叉熵损失,论文定义了一个新的扩散损失函数,用于在连续值域中模型化每个token的概率。这个方法通过预测一个向量z作为条件,应用于一个去噪网络(如小型多层感知机MLP),进而实现对输出x的概率分布p(x|z)的建模。这种方法不仅去除了对离散化令牌的需求,还提供了从分布中抽样的途径。
3. 通用化的自回归框架:论文进一步将标准自回归模型和掩码生成模型统一到一个广义自回归框架下,展示了一种名为掩码自回归(Masked Autoregressive, MAR)的模型,它能够在随机顺序的同时预测多个输出token,保持了“基于已知预测下一个token”的自回归本质,且能无缝集成扩散损失。
4. 实验验证与性能提升:通过广泛的实验,作者展示了扩散损失在多种情况下的有效性,包括标准自回归模型和MAR模型。该方法提高了生成质量,同时保持了序列模型的快速生成速度