AuraFlow：超越Stable Diffusion 3，开源文生图模型的未来之星

OpenCSG

已于 2024-07-22 10:57:04 修改

阅读量896

点赞数 30

文章标签： stable diffusion 人工智能

于 2024-07-22 10:55:49 首次发布

本文链接：https://blog.csdn.net/OpenCSG/article/details/140604080

版权

前沿科技速递🚀

开源创新先锋fal.ai携手社区顶尖开发者，震撼发布AuraFlow v0.1——全球首个完全开源的大型整流流文本到图像生成模型，开启文生图领域新篇章！

极致开源精神：AuraFlow v0.1作为对Stable Diffusion 3开源争议的直接回应，坚持完全开源原则，无商业授权限制，彻底激发全球AI爱好者的创造力与探索欲，引领开源文生图技术潮流。

高效模型架构：基于6.8B参数的强大基础，AuraFlow通过优化MMDiT块设计，引入大型DiT Encoder块，实现模型算力利用率提升15%，展现卓越的计算效率与可扩展性，为大规模训练奠定坚实基础。

精准图像生成：针对Stable Diffusion 3中人物图像四肢扭曲的问题，AuraFlow在物体空间构成与色彩表现上展现出DiT模型的独特优势，虽v0.1版本在人物生成上仍有提升空间，但其潜力已初露锋芒，预示未来更加精细的图像生成能力。

零样本学习率迁移：创新采用最大更新参数化（muP）技术，实现零样本学习率迁移，相比传统方法，在大规模学习率预测上展现出更高的稳定性和可预测性，加速模型训练进程。

全面数据优化：重新标注所有数据集，确保图文对质量，极尽遵循DALL·E 3方法，剔除错误文本条件，显著提升指令遵循质量，让生成的图像更加贴近用户意图。

灵活应用生态：支持在线免费试用及ComfyUI等主流平台集成，用户可轻松下载模型权重，构建个性化工作流程。AuraFlow致力于成为文生图领域的标准骨干，为下游应用与创新工作提供强大支撑。

AuraFlow v0.1不仅是开源社区对技术进步的共同追求，更是对未来智能生成技术无限可能的勇敢探索。快来传神社区体验AuraFlow v0.1吧！

来源：传神社区

01 模型亮点

AuraFlow在技术上遵循了Stable Diffusion 3的路线，但在多个方面进行了优化和改进：

MMDiT的改进：研发团队发现，虽然MMDiT在性能上表现出色，但删除许多层并仅使用单个DiT块能够显著提高模型的可扩展性和计算效率。这一改动使得6.8B规模的模型浮点利用率提升了15%。
零样本学习率迁移：AuraFlow采用了最大更新参数化（muP）的零样本学习率迁移方式，与标准参数化（SP）相比，muP在大规模学习率的可预测性方面更具优势。
高质量图文对：为了确保数据集中没有错误的文本条件，研发团队重新添加了提示词，并使用了内部和外部提示词数据集来训练模型。这一做法显著提高了指令遵循的质量，使得生成的图像更加符合用户期望。
更优的模型架构：为了找到最佳架构，研发团队制作了一个更“胖”的模型，并通过实验确定了20~100的纵横比适合更大规模的训练。最终使用的3072/36架构使得模型大小达到了6.8B参数。

02 使用方法

使用AuraFlow模型生成文本到图像的过程相当直观，既可以通过Hugging Face的Diffusers库，也可以通过ComfyUI这样的图形界面工具来实现。下面我将详细介绍这两种方法的具体步骤。

基于huggingface diffusers的使用方式：

$ pip install transformers accelerate protobuf sentencepiece$ pip install git+https://github.com/huggingface/diffusers.git
from diffusers import AuraFlowPipelineimport torch
pipeline = AuraFlowPipeline.from_pretrained(    "fal/AuraFlow",    torch_dtype=torch.float16).to("cuda")
image = pipeline(    prompt="close-up portrait of a majestic iguana with vibrant blue-green scales, piercing amber eyes, and orange spiky crest. Intricate textures and details visible on scaly skin. Wrapped in dark hood, giving regal appearance. Dramatic lighting against black background. Hyper-realistic, high-resolution image showcasing the reptile's expressive features and coloration.",    height=1024,    width=1024,    num_inference_steps=50,     generator=torch.Generator().manual_seed(666),    guidance_scale=3.5,).images[0]

ComfyUI的使用方式：

下载最新版ComfyUI
- 打开ComfyUI，创建一个新的工作流。
- 在工作流中添加一个文本到图像的转换节点，并选择已下载的AuraFlow模型。
- 配置节点的参数，如图像尺寸、推理步数、引导比例等。
输入提示并生成图像：
- 在文本输入框中输入你的提示文本。
- 点击生成按钮，ComfyUI将使用AuraFlow模型根据提示生成图像。
- 生成完成后，你可以在ComfyUI中预览和保存图像。