Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
相关链接:arxiv
关键字:Generative Modeling、Diffusion Models、Rectified Flow、Text-to-image Synthesis、High-resolution Images
摘要
扩散模型通过反转数据向噪声前进的路径来从噪声中创建数据,并已成为生成模型技术的强大工具,适用于高维、感知性数据如图像和视频。Rectified flow是一种新型的生成模型,它在数据和噪声之间建立直线联系。尽管其理论性质和概念简单性更佳,但它尚未成为标准实践。在本工作中,我们通过偏向于感知相关规模的方式改进了现有的rectified flow模型的噪声抽样技术。通过大规模研究,我们展示了这种方法与现有扩散公式在高分辨率文本到图像合成方面的优越性能。此外,我们还提出了一种新型的基于Transformer的文本到图像生成架构,该架构为两种模态使用单独的权重,并允许在图像和文本token之间双向流动信息,从而改善了文字理解、排版以及人类偏好评级。我们证明了这种架构遵循可预测的规模化趋势,并将较低的验证损失与通过各种指标和人类评估衡量的改进文本到图像合成强烈相关联。我们最大的模型在性能上超过了现有的最先进模型,我们将使我们的实验数据、代码和模型权重公开可用。
核心方法
- 噪声抽样技术:提出改进的噪声抽样技术,偏向于感知相关规模,以训练rectified flow模型。
- 新型架构:引入了一种新型的基于Transformer的文本到图像生成架构,使用独立的权重处理不同模态,并允许图像和文本token之间的双向信息流动。
- 大规模研究:通过在高分辨率图像合成上的大规模应用比较新公式和已有扩散公式,展示新方法的优势。
- 预测性规模化趋势:证明模型遵循可预测的规模化趋势,并将较低的验证损失与改进的文本到图像合成强关联。
实验说明
原文中进行的实验包含多个组件的性能评估和比较。例如,评估预训练的自编码器质量对最终图像质量的影响,比较不同的transformer背骨网络,以及大规模预训练的影响。实验结果表明,通过改进自编码器、使用混合数据、以及增大模型规模等措施可以大幅提高文本到图像模型的性能。为了进一步提高模型在高分辨率应用上的稳定性,引入了QK-标准化技术。最终的模型在各项指标上,如FID和CLIP得分,均优于先前的模型,并且能够更少地进行采样步骤来生成高质量的图像。
结论
我们提出了一个新的noise sampler,用于训练rectified flow模型该模型对个别时间步骤的敏感性进行了优化。我们还介绍了一个新的基于Transformer的结构,该结构允许在图像和文本token之间双向共享信息。通过大规模实验,我们证明了我们的方法在高分辨率图像合成方面优于现有技术。我们的最大模型在他们的评估中优于目前最先进的开源和闭源模型,并将我们的代码和模型权重公开。
在实现这样一个系统时,需要考虑的技术挑战相当复杂,涉及生成模型的各个方面,包括数据预处理、网络架构选择、噪声抽样方法优化、超参数调整等。此外,开展这项研究的团队对改进现有的生成模型算法,特别是在文本到图像合成领域,展现出了技术深度。