视觉自回归建模: 基于下一尺度预测的可扩展图像生成

0. 资源链接

1. 背景动机

  • 类 GPT 的视觉自回归模型在标度律(Scaling Laws)等方面并未被充分探索,且其图像生成性能远远落后于扩散模型(DiT 等)

  • 作为序列的语言依赖关系是单向的,但是二维图像的依赖关系是沿两个维度方向的,直接把语言自回归模型直接用于图像忽略了这种性质

  • 人类的视觉感知过程通常是由全局到局部细节层次递进,而自回归建模需要定义数据顺序,这种感知尺度的次序天然地就定义了一种图像数据顺序的关系

2. 内容提要

  • VAR 提出新的图像生成范式:预测下一个尺度/分辨率,这与之前一般的光栅扫描式(从左到右、从上到下)的预测下一个 token 的逻辑不同

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值