超越扩散模型！度小满、中科大等联合提出全新自回归通用文生图模型-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140002863

项目网站：

https://krennic999.github.io/STAR/

论文链接：

https://arxiv.org/pdf/2406.10797

背景介绍

通用文本引导图像生成领域近年受到广泛关注，在二次创作，虚拟试穿和原型设计领域得到广泛应用。艺术家和设计师利用它重新构思和创新现有作品。消费者通过生成图像预览服装和配饰，提升购物体验。设计师能快速生成产品概念图，节省时间和资源。尤其扩散模型（Diffusion）由于其高质量和多元的生成，在文生图领域占有主导地位。通过逐步的去噪过程，为图像生成提供了更强的稳定性和可控性，然而也导致生成过程及其耗时。

自回归（Auto-regressive，AR）模型通过离散视觉编码器（VQ-VAE，d-VAE 等）将图像转化为离散 token，训练模型按顺序逐个预测新的 token，预测的整个 token map 解码即可得到生成的图像。

受大语言模型的启发，自回归模型在这一领域的应用也逐渐被探索，然而性能仍落后于扩散模型。VAR 指出是因为自回归模型逐个预测 token 的行为不符合图像模态的特点，提出 “next-scale prediction” 范式，将视觉自回归建模为逐个预测更大尺度 scale 的 token map，具体来说，next-scale prediction 基于一系列不同尺度的二维离散 token maps（），在较低分辨率 token map 的基础上逐步生成更高分辨率的 token map：

这一方式避免了原始基于 next-token 的自回归方案难以建模图像模态的问题，重新为视觉生成定义了新的自回归范式，从而使得生成的图像具有更高的真实度。

这一方法有效地建模了离散图像 token 的二维相关性，然而其仅局限于有限类别引导的生成，无法泛化到未知的实体和概念，除此之外采用的绝对可学习位置编码，导致额外的学习参数，限制了高分辨图像生成的潜力。

为了探索这种新的生成范式在文本控制生成这一开放集任务的表现，作者提出基于尺度的文生图自回归模型 STAR，重新思考 VAR 中的 “next-scale prediction” 范式，以获得性能更好、效率更高的通用文生图模型，为目前扩散模型支配的文生图领域带来新的看法。

方法核心

具体来说，所提出的 STAR 包括两部分：增强的文本引导和改进的位置编码，以高效地实现高质量图像生成：

增强的文本引导

为了更好地处理各种复杂的文本描述并生成相应的图像，研究者提出几项关键解决方案：

1）文本特征作为起始 token map，根据起始 token map 生成更高分辨率的 token map 这不仅增强了模型对新文本场景的适应性，确保模型可以泛化到新的文本提示，从整体上保证了文本描述与生成图像之间的一致性

2）在每个 transformer 层引入交叉注意力机制，从更精细的粒度控制图像生成，使得生成的图像更加精确地贴合文本。

具体网络结构如下：

归一化旋转位置编码（Normalized RoPE）

对于 next-scale prediction 范式，如何利用同一个 transformer 生成不同尺度的 token map 是一个重要的问题，随之而来的是如何编码这些 token map 中的 tokens 的位置。

传统的正余弦编码难以处理不同尺度的 token map，同时编码多个尺度容易导致尺度之间的混淆。可学习的绝对位置编码需要为每个尺度的 token map 学习对应的位置编码，导致额外的学习参数，提升了训练难度，尤其是大尺度情况下的训练变得更加困难；除此之外固定个数的位置编码限制了更大分辨率图像生成的可能。

研究者提出二维的归一化旋转位置编码（Normalized RoPE），具体来说，对于一个 scale 的 token map ，对于位置，归一化的 RoPE 计算可表示为：

任意 token 间的相对位置被归一化到统一的尺度，从而确保了对不同尺度的 token map 中的相对位置有统一的理解，避免对不同尺度位置同时编码的混淆，更好地适配 scale-prediction 任务。除此之外，这一新的位置编码不需要额外的参数，更易于训练，为更高分辨率图像生成提供了潜在的可能。