0. 资源链接
1. 背景动机
-
类 GPT 的视觉自回归模型在标度律(Scaling Laws)等方面并未被充分探索,且其图像生成性能远远落后于扩散模型(DiT 等)
-
作为序列的语言依赖关系是单向的,但是二维图像的依赖关系是沿两个维度方向的,直接把语言自回归模型直接用于图像忽略了这种性质
-
人类的视觉感知过程通常是由全局到局部细节层次递进,而自回归建模需要定义数据顺序,这种感知尺度的次序天然地就定义了一种图像数据顺序的关系
2. 内容提要
-
VAR 提出新的图像生成范式:预测下一个尺度/分辨率,这与之前一般的光栅扫描式(从左到右、从上到下)的预测下一个 token 的逻辑不同