摘要
自回归(AR)模型在语言生成领域成就斐然,但其在图像合成上的应用常受限于高昂的计算成本和分辨率瓶颈,与扩散模型相比竞争力不足。核心挑战在于处理海量图像令牌。我们提出 Token-Shuffle,一种简洁高效的方法,通过利用多模态大语言模型(MLLM)中视觉词汇固有的维度冗余,显著减少 Transformer 处理的令牌数量。该方法包含令牌洗牌 (token-shuffle) 以合并局部令牌减少输入,及令牌反洗牌 (token-unshuffle) 以恢复输出结构。此策略无需额外文本编码器,在统一的下一令牌预测框架内,实现了 AR 模型首次生成 2048×2048 超高分辨率图像,兼顾了训练与推理效率。在基准测试中,我们的 2.7B 模型表现优异,超越了同类 AR 模型及部分强扩散模型,并通过了大规模人工评估的验证,证明了其在文本对齐与视觉效果上的卓越能力。Token-Shuffle 有望成为 MLLM 中高效高分辨率图像生成的基础设计。
📜 引言:突破 AR 图像生成的分辨率壁垒
大型语言模型(LLM)通过“下一令牌预测”在自然语言处理领域取得巨大成功,启发了将其扩展至图像生成的研究,催生了多模态大语言模型(MLLM)。采用离散视觉令牌的 MLLM 与 LLM 架构兼容性好,易于实现,但面临严峻挑战:生成高分辨率图像需要处理天文数字般的令牌量(如 1024² 需 4K 令牌,2048² 需 16K 令