视觉生成范式 VAR: Visual Auto Regressive

使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力

体验网站:https://var.vision/

论文链接:https://arxiv.org/abs/2404.02905

开源代码:https://github.com/FoundationVision/VAR

开源模型:https://huggingface.co/FoundationVision/var

  • 离散编码:编码器将图片转化为离散 token map R=(r1, r2, …, rk),分辨率从小到大

  • 连续化:r1 至 rk 先通过嵌入层转换为连续 feature map,再统一插值到 rk 对应最大分辨率,并求和

  • 连续解码:求和后的 feature map 经过解码器得到重建图片,并通过重建 + 感知 + 对抗三个损失混合训练

自回归阶段:

  • 自回归第一步是通过起始 token [S] 预测最初的 1x1 token map

  • 随后每一步,VAR 都基于历史所有的 token map 去预测下一个更大尺度的 token map

  • 训练阶段,VAR 使用标准的交叉熵损失监督这些 token map 的概率预测

  • 测试阶段,采样得到的 token map 会借助 VQVAE 进行连续化、插值求和、解码,从而得到最终生成的图像。

Ref

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值