0. 资源链接
1. 背景动机
-
类 GPT 的视觉自回归模型在标度律(Scaling Laws)等方面并未被充分探索,且其图像生成性能远远落后于扩散模型(DiT 等)
-
作为序列的语言依赖关系是单向的,但是二维图像的依赖关系是沿两个维度方向的,直接把语言自回归模型直接用于图像忽略了这种性质
-
人类的视觉感知过程通常是由全局到局部细节层次递进,而自回归建模需要定义数据顺序,这种感知尺度的次序天然地就定义了一种图像数据顺序的关系
2. 内容提要
-
VAR 提出新的图像生成范式:预测下一个尺度/分辨率,这与之前一般的光栅扫描式(从左到右、从上到下)的预测下一个 token 的逻辑不同
-
是首个在图像生成方面超越 Diffusion Transformer 的类 GPT 自回归模型, 在图像质量、推理速度、数据效率和扩展性等多方面优于 DiT
-
展现出与大语言模型相仿的重要特性:标度律(Scaling Laws)和零样本泛化性(zero-shot generalization)
3. 技术细节
VSR(视觉自回归建模)的整体设计思路如下:首先将图像编码成多尺度的 token maps,自回归的过程中从 1x1 大小的 token maps出发,逐步扩大图像尺寸。在每一步图像扩展中,transformer 网络基于之前不同尺寸图像生成下一个更高分辨率的 token maps。
VAR 包含两个部分:多尺度向量量化变分自编码器 VQVAE(Vector Quantized Variational AutoEncoder)和视觉自回归变换器 VAR transformer。
3.1 多尺度 VQVAE
-
图像经过变分自编码器得到特征图 f
-
对于每个设定的尺度,对 f 插值得到对应尺度图,并使用码本(通常基于最近匹配原则)对特征进行量化,将连续特征转换为离散的 token
-
多尺度的特征编码是基于残差(residual)方式进行(见 Algorithm 1)
-
通过嵌入(Embedding)将离散 token 转换为连续嵌入向量的过程
-
基于多尺度特征恢复特征图 f 后,经过解码器得到重建图像(见 Algorithm 2),再通过重建损失等训练 VQVAE
3.2 视觉自回归变换器
-
使用类 GPT 的解码器结构进行自回归学习,学习基于低分辨率的 token maps 预测高分辨率的 token maps
-
使用多尺度 VQVAE 输出的多尺度 token maps 作为真值,监督模型训练
-
同一尺度的整个 token maps 是同时生成的,而非逐个按顺序生成的
3.3 训练与推断
训练:
-
第一阶段:多尺度 VQVAE 将图像编码为 token maps,通过编码器恢复图像,使用重建损失监督训练
-
第二阶段:通过最小化交叉熵损失或最大化似然估计来训练 VAR 模型中的变换器,使用 VQVAR 生成的多尺度 token maps 作为真值监督训练
推断:
-
图片输入 VQVAE 生成低分辨率的 token maps
-
使用 VAR 基于低分辨率的 token maps 逐步预测高分辨率的 token maps
-
通过嵌入将离散的 token maps 转换为连续的特征图,通过 VQVAE 的解码器生成最后图像
3.4 实验分析
-
与 SOTA 对比:VAR 的精度相较于其它类型方法更高,速度比扩散模型、自回归模型更快,增大模型参数量能带来精度的提升
-
消融实验:通过各种提升技巧,VAR 相比基准的 AR 模型,精度 FID 从 18.65 提升到 1.80,推断速度提升了 20 倍
-
模型也遵守 GPT 类似的标度律(Scaling Laws)
-
在不同下游任务上的 zero-shot 可视化效果
4. 一些思考
-
类 GPT 的自回归模型主要针对一维序列,将二维图像展平成一维序列后作为输入从直觉上看不太自然
-
VAR 将视觉自回归过程建模成下一尺度的更高分辨率图像预测,符合人类从全局到局部的视觉感知顺序,而且同一尺度的 token maps 是同时并行生成的,相较于之前逐个生成的方式效率大大提升
-
实验数据验证 VAR 的设计遵从标度律(Scaling Laws),也说明了该方法的有效性和提升潜力