字节新作：图像生成质量超越DiT

最新推荐文章于 2024-08-21 22:35:36 发布

linxid

最新推荐文章于 2024-08-21 22:35:36 发布

阅读量760

点赞数 3

文章标签： kotlin 开发语言 android

本文链接：https://blog.csdn.net/linxid/article/details/137395365

版权

🌟每日更新最新高质量论文，关注我，时刻关注最新大模型进展。🌟

标题：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
标签：Visual AutoRegressive modeling, Image Generation, Next-Scale Prediction, GPT-style models, Scaling Laws, Zero-shot generalization

主张：VAR模型通过重新定义图像自回归学习为从粗糙到精细的“下一尺度预测”，与传统的栅格扫描“下一标记预测”不同，这种方法简单直观，使自回归变换器能够快速学习视觉分布，并在图像生成方面首次超越了扩散变换器。
亮点：VAR模型不仅在图像质量、推理速度、数据效率和可扩展性方面超越了Diffusion Transformer (DiT)，而且还展示了在多个维度上的性能提升，包括清晰的幂律缩放定律和零样本泛化能力。
核心贡献：VAR模型在ImageNet 256×256基准测试中，将Fréchet inception distance (FID)从18.65提高到1.80，inception score (IS)从80.4提高到356.4，并且推理速度提高了20倍。
Motivation：论文的动机是解决现有自回归模型在图像生成中的局限性，并借鉴大型语言模型（LLMs）的可扩展性和泛化性，提出了一种新的多尺度自回归范式。

3… 📚 论文的核心内容，模型结构，关键术语/概念：

核心内容：VAR模型通过多尺度VQVAE编码图像，并使用自回归变换器从低分辨率到高分辨率逐步生成图像。
模型结构详述：VAR模型包括两个阶段的训练：首先是多尺度量化自编码器（VQVAE）对图像进行编码，然后是VAR变换器通过最大化似然或最小化交叉熵损失进行训练，实现从粗糙到精细的图像生成。

核心实验结果：VAR模型在ImageNet 256×256基准测试中取得了显著的性能提升，FID从18.65降至1.80，IS从80.4提升至356.4，展现了强大的图像生成能力。
消融实验：论文中对VAR模型的不同组件进行了消融实验，如使用自适应层归一化（AdaLN）、top-k采样和无分类器引导（CFG），证明了这些组件对提高模型性能的重要性。

综合以上内容，VAR模型通过创新的“下一尺度预测”方法，在图像生成领域取得了突破性进展，不仅性能超越了现有的强模型，还展现了与大型语言模型相似的缩放定律和零样本泛化能力，为视觉生成和统一学习提供了新的视角和工具。
相关工作：论文中提到了与VAR模型相关的一些工作，包括VQGAN、DALL-E、GPT系列以及其他自回归和扩散模型。

6.❓引发思考的问题：

关注