视觉自回归建模: 基于下一尺度预测的可扩展图像生成

0. 资源链接

1. 背景动机

  • 类 GPT 的视觉自回归模型在标度律(Scaling Laws)等方面并未被充分探索,且其图像生成性能远远落后于扩散模型(DiT 等)

  • 作为序列的语言依赖关系是单向的,但是二维图像的依赖关系是沿两个维度方向的,直接把语言自回归模型直接用于图像忽略了这种性质

  • 人类的视觉感知过程通常是由全局到局部细节层次递进,而自回归建模需要定义数据顺序,这种感知尺度的次序天然地就定义了一种图像数据顺序的关系

2. 内容提要

  • VAR 提出新的图像生成范式:预测下一个尺度/分辨率,这与之前一般的光栅扫描式(从左到右、从上到下)的预测下一个 token 的逻辑不同

  • 是首个在图像生成方面超越 Diffusion Transformer 的类 GPT 自回归模型, 在图像质量、推理速度、数据效率和扩展性等多方面优于 DiT

  • 展现出与大语言模型相仿的重要特性:标度律(Scaling Laws)和零样本泛化性(zero-shot generalization)

3. 技术细节

VSR(视觉自回归建模)的整体设计思路如下:首先将图像编码成多尺度的 token maps,自回归的过程中从 1x1 大小的 token maps出发,逐步扩大图像尺寸。在每一步图像扩展中,transformer 网络基于之前不同尺寸图像生成下一个更高分辨率的 token maps。

VAR 包含两个部分:多尺度向量量化变分自编码器 VQVAE(Vector Quantized Variational AutoEncoder)和视觉自回归变换器 VAR transformer。

3.1 多尺度 VQVAE

  • 图像经过变分自编码器得到特征图 f

  • 对于每个设定的尺度,对 f 插值得到对应尺度图,并使用码本(通常基于最近匹配原则)对特征进行量化,将连续特征转换为离散的 token

  • 多尺度的特征编码是基于残差(residual)方式进行(见 Algorithm 1)

  • 通过嵌入(Embedding)将离散 token 转换为连续嵌入向量的过程

  • 基于多尺度特征恢复特征图 f 后,经过解码器得到重建图像(见 Algorithm 2),再通过重建损失等训练 VQVAE

3.2 视觉自回归变换器

  • 使用类 GPT 的解码器结构进行自回归学习,学习基于低分辨率的 token maps 预测高分辨率的 token maps

  • 使用多尺度 VQVAE 输出的多尺度 token maps 作为真值,监督模型训练

  • 同一尺度的整个 token maps 是同时生成的,而非逐个按顺序生成的

3.3 训练与推断

训练:

  • 第一阶段:多尺度 VQVAE 将图像编码为 token maps,通过编码器恢复图像,使用重建损失监督训练

  • 第二阶段:通过最小化交叉熵损失或最大化似然估计来训练 VAR 模型中的变换器,使用 VQVAR 生成的多尺度 token maps 作为真值监督训练

推断:

  • 图片输入 VQVAE 生成低分辨率的 token maps

  • 使用 VAR 基于低分辨率的 token maps 逐步预测高分辨率的 token maps

  • 通过嵌入将离散的 token maps 转换为连续的特征图,通过 VQVAE 的解码器生成最后图像

3.4 实验分析

  • 与 SOTA 对比:VAR 的精度相较于其它类型方法更高,速度比扩散模型、自回归模型更快,增大模型参数量能带来精度的提升

  • 消融实验:通过各种提升技巧,VAR 相比基准的 AR 模型,精度 FID 从 18.65 提升到 1.80,推断速度提升了 20 倍

  • 模型也遵守 GPT 类似的标度律(Scaling Laws)

  • 在不同下游任务上的 zero-shot 可视化效果

4. 一些思考

  • 类 GPT 的自回归模型主要针对一维序列,将二维图像展平成一维序列后作为输入从直觉上看不太自然

  • VAR 将视觉自回归过程建模成下一尺度的更高分辨率图像预测,符合人类从全局到局部的视觉感知顺序,而且同一尺度的 token maps 是同时并行生成的,相较于之前逐个生成的方式效率大大提升

  • 实验数据验证 VAR 的设计遵从标度律(Scaling Laws),也说明了该方法的有效性和提升潜力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值