【论文阅读笔记】VAR：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

最新推荐文章于 2025-04-22 12:33:08 发布

LuH1124

最新推荐文章于 2025-04-22 12:33:08 发布

阅读量1.6k

点赞数 10

分类专栏：论文阅读笔记 AIGC 文章标签：论文阅读笔记 AIGC

本文链接：https://blog.csdn.net/weixin_43357695/article/details/144434674

版权

VAR：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

介绍
理解
引言
二、相关工作
- 大型自回归语言模型的性质
- 视觉生成
三、方法
实现细节
实验结果
附录

介绍

Code：https://github.com/FoundationVision/VAR
Paper：https://arxiv.org/abs/2404.02905

理解

核心提出“视觉自回归建模（VAR）”

方法创新
提出"下一个尺度/分辨率预测"范式，区别于传统的光栅扫描"下一个令牌预测"，将自回归（AR）学习应用于图像生成。
性能突破
ImageNet 256×256 基准测试中：Fréchet 初始距离（FID）从 18.65 降到 1.73，初始分数（IS）从 80.4 提高到 30.2，推理速度提高 20 倍。
关键优势
超越扩散变压器（DiT）
在图像质量、推理速度、数据效率和可扩展性多维度领先
重要发现
模型表现呈现幂律缩放律
线性相关系数接近 -0.998
类似大语言模型（LLM）的缩放特性
泛化能力
展示零样本泛化能力，支持图像内画、外画和编辑任务
研究意义
为视觉生成提供新范式，揭示 AR 模型在视觉领域的潜力，促进 AR/VAR 模型在视觉生成中的研究。

引言

图1 展示了 VAR 的生成效果。
在这里插入图片描述
从图二中看，自回归模型在 LLM 领域已经是一家独大，CV 领域也一直在努力开发大型自回归模型，希望能够模拟 LLM 出现可扩展性和可泛化性。现有的主流 AR 模型将连续图像离散为二维标记的网格，然后将其展平为一维序列进行 AR 学习。但类似的性能难以和扩散模型相比。

自回归建模需要定义数据的顺序。我们的工作重新考虑如何“排序”图像：人类通常以分层的方式感知或创建图像，首先捕获全局结构，然后捕获局部细节。这种多尺度、从粗到细的性质表明图像的“顺序”。同样受到广泛的多尺度设计的启发，我们将图像的自回归学习定义为图2©中的“下一个尺度预测”，不同于图2(B)中的传统“下一个令牌预测”。我们的方法首先将图像编码为多尺度标记图。然后自回归过程从 1×1 令牌映射开始，并以分辨率逐步扩展：在每一步，转换器根据所有先前的令牌预测下一个更高分辨率的令牌映射。我们将此方法称为视觉自回归 (VAR) 建模。
在这里插入图片描述
VAR直接利用类似GPT-2的变压器架构[66]进行视觉自回归学习。在 ImageNet 256×256 基准测试中，VAR 显着提高了其 AR 基线，实现了 1.73 的 Fréchet 起始距离 (FID) 和 35.2 的初始分数 (IS)，推理速度快 20 倍（详见第 7 节）。值得注意的是，VAR超过了扩散变压器(DiT)——在FID/IS、数据效率、推理速度和可扩展性方面，如稳定扩散3.0和SORA。VAR 模型也表现出类似于 LLM 中所见的标度律。最后，我们展示了VAR在图像修复、外绘和编辑等任务中的零镜头泛化能力。总之，我们对社区的贡献包括：

一种新的视觉生成框架，使用多尺度自回归范式和下一个尺度预测，为计算机视觉的自回归算法设计提供了新的见解。
VAR模型缩放定律和零样本泛化潜力的经验验证，它最初模拟了大型语言模型 (LLM) 的吸引人的特性。
视觉自回归模型性能的突破，首次使GPT风格的自回归方法在图像合成方面超过了强扩散模型。
一个全面的开源代码套件，包括VQ标记器和自回归模型训练管道，以帮助推动视觉自回归学习的发展。

二、相关工作

大型自回归语言模型的性质

缩放定律和零样本泛化是人工智能的两个重要发现：标度律揭示了模型性能可以随着规模持续提升，而零样本泛化则意味着模型可以处理未被明确训练的任务。这两个特性让AI模型变得越来越强大和灵活，从语言模型成功扩展到计算机视觉等其他领域，标志着人工智能正在向更加智能和通用的方向发展

视觉生成

介绍了相关的扫描式自回归模型，掩码预测模型，扩散模型。

三、方法

以往的自回归模型将 VQVAE 压缩的离散 tokens 展平为一维离散 tokens，然后使用行主光栅扫描、螺旋或 z 曲线顺序。。一旦展平，他们就可以从数据集中提取一组序列 x，然后训练一个自回归模型，通过下一个令牌预测最大化下式中的似然性。
$p\left(x_{1}, x_{2}, \ldots, x_{T}\right)=\prod_{t=1}^{T} p\left(x_{t} \mid x_{1}, x_{2}, \ldots, x_{t-1}\right)$

最低0.47元/天解锁文章