重磅！Stable Diffusion创始团队推出FLUX.1：一夜颠覆MJ v6，DALL·E 3，SD3！

AI绘画咪酱

已于 2024-12-31 15:23:21 修改

阅读量1.8k

点赞数 17

文章标签： stable diffusion AIGC 人工智能

于 2024-08-02 10:28:40 首次发布

本文链接：https://blog.csdn.net/2401_84760322/article/details/140865162

版权

前言

Stable Diffusion 大家已经很熟悉了，是由 CompVis 团队开发的，这是一个隶属于德国慕尼黑大学的计算机视觉研究小组。该团队由多个研究人员和开发者组成，包括 Patrick Esser、Robin Rombach 和 Björn Ommer 等人

现在团队核心开发人员Robin Rombach 宣布成立黑森林实验室，推出一种先进的开源文生图模型FLUX.1

开门见山，以下图像全部出自FLUX.1

以下是FLUX.1官宣详细信息，

黑森林实验室成立公告

今天，我们很高兴宣布成立黑森林实验室。我们深深扎根于生成式AI研究社区，使命是开发和推进用于图像和视频等媒体的最先进的生成式深度学习模型，拓展创造力、效率和多样性的界限。我们相信，生成式AI将成为未来所有技术的基础构建模块。通过向广泛的受众提供我们的模型，我们希望将其好处带给每个人，教育公众并增强对这些模型安全性的信任。我们决心建立生成媒体的行业标准。今天，作为实现这一目标的第一步，我们发布了FLUX.1模型套件，引领文本到图像合成的前沿发展

黑森林团队

我们是一支由杰出的AI研究人员和工程师组成的团队，在学术、工业和开源环境中开发基础生成式AI模型方面有着卓越的记录。我们的创新成果包括创建了VQGAN和Latent Diffusion，用于图像和视频生成的Stable Diffusion模型（Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers），以及用于超快实时图像合成的Adversarial Diffusion Distillation

我们的核心信念是，广泛可及的模型不仅促进了研究社区和学术界的创新和合作，还增加了透明度，这是建立信任和广泛采用的关键。我们的团队致力于开发最高质量的技术，并使其尽可能广泛地可用

资金

我们很高兴宣布成功完成了3100万美元的种子轮融资。本轮融资由我们的主要投资者Andreessen Horowitz领投，天使投资者Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun以及其他知名的AI研究和公司建设专家参与。我们还获得了General Catalyst和MätchVC的后续投资，以支持我们将最先进的AI技术从欧洲带给全球的使命

此外，我们很高兴宣布我们的顾问委员会成员，包括带来丰富的内容创作领域经验的Michael Ovitz，以及神经风格迁移的先锋和欧洲开放AI研究的领先专家Matthias Bethge教授

FLUX.1模型系列

我们发布了FLUX.1文本到图像模型套件，这些模型在图像细节、提示词遵循、风格多样性和场景复杂性方面定义了新的最先进水平

为了在可访问性和模型能力之间取得平衡，FLUX.1有三种变体：FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]：

• FLUX.1 [pro]：FLUX.1的顶级性能，提供最先进的图像生成，具有一流的提示词遵循、视觉质量、图像细节和输出多样性。通过我们的API注册FLUX.1 [pro]访问权限。FLUX.1 [pro]也可以通过Replicate和fal.ai获取。此外，我们提供专用和定制的企业解决方案——请通过联系我们
• FLUX.1 [dev]：FLUX.1 [dev]是一个开放权重的、指导蒸馏的模型，适用于非商业应用。直接从FLUX.1 [pro]蒸馏而来，FLUX.1 [dev]获得了类似的质量和提示词遵循能力，同时比同尺寸的标准模型更高效。FLUX.1 [dev]的权重可在HuggingFace上获取，并可以在Replicate或Fal.ai上直接试用。对于商业环境中的应用，请通过联系
• FLUX.1 [schnell]：我们的最快模型，适合本地开发和个人使用。FLUX.1 [schnell]在Apache2.0许可下公开提供。类似于FLUX.1 [dev]，权重可在Hugging Face上获取，推理代码可以在GitHub和HuggingFace’s Diffusers上找到。此外，我们很高兴在ComfyUI上实现了第一天就集成

Transformer驱动的流模型

所有公共的FLUX.1模型都是基于多模态和并行扩散Transformer块的混合架构，并扩展到12B参数。我们通过建立在流匹配上的方法改进了以前的最先进扩散模型，这是一种训练生成模型的一般和概念简单的方法，包括扩散作为特例。此外，我们通过引入旋转位置嵌入和并行注意力层提高了模型性能和硬件效率。我们将在不久的将来发布更详细的技术报告

图像合成的新基准

FLUX.1定义了图像合成的新最先进水平。我们的模型在各自的模型类别中设定了新的标准。FLUX.1 [pro]和[dev]在以下各个方面超越了流行的模型，如Midjourney v6.0、DALL·E 3（HD）和SD3-Ultra：视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性。FLUX.1 [schnell]是迄今为止最先进的少步骤模型，不仅优于其同类竞争对手，还超越了强大的非蒸馏模型，如Midjourney v6.0和DALL·E 3（HD）。我们的模型经过特别微调，以保留预训练中的所有输出多样性。与当前的最先进水平相比，它们提供了显著改进的可能性，如下所示。

所有FLUX.1模型变体支持多种纵横比和0.1到2.0百万像素的分辨率，如以下示例所示。

接下来：面向所有人的最先进文本到视频

今天，我们发布了FLUX.1文本到图像模型套件。凭借其强大的创造力，这些模型为我们即将推出的竞争性生成文本到视频系统奠定了坚实的基础。我们的视频模型将解锁高分辨率和前所未有速度的精确创作和编辑。我们致力于继续引领生成媒体的未来

GitHub - black-forest-labs/flux: FLUX.1 模型的官方推理仓库

FLUX

由 Black Forest Labs 提供：https://blackforestlabs.ai

这个仓库包含运行文本到图像和图像到图像的 FLUX 潜在修正流 Transformer 的最简推理代码

本地安装

模型

提供三种模型：

• FLUX.1 [pro] 基础模型，通过 API 提供
• FLUX.1 [dev] 引导蒸馏变体
• FLUX.1 [schnell] 引导及步长蒸馏变体

名称	HuggingFace 仓库	许可证	md5sum
`FLUX.1 [schnell]`	https://huggingface.co/black-forest-labs/FLUX.1-schnell	apache-2.0	a9e1e277b9b16add186f38e3f5a34044
`FLUX.1 [dev]`	https://huggingface.co/black-forest-labs/FLUX.1-dev	FLUX.1-dev 非商业许可	a6bd8c16dfc23db6aee2f63a2eba78c0
`FLUX.1 [pro]`	仅通过 API 提供

自动编码器的权重也根据 apache-2.0 发布，可以在上述任一 HuggingFace 仓库中找到。这些权重对于两种模型是相同的

使用

启动其中一个演示时，权重将自动从 HuggingFace 下载。要下载 FLUX.1 [dev]，你需要登录，详见此处（https://huggingface.co/docs/huggingface_hub/guides/cli#huggingface-cli-login）。如果你已手动下载模型权重，可以通过环境变量指定下载路径：

export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>   export FLUX_DEV=<path_to_flux_dev_sft_file>   export AE=<path_to_ae_sft_file>

要进行交互采样，请运行

python -m flux --name <name> --loop

或生成单个样本，请运行

python -m flux --name <name> \\     --height <height> --width <width> \\     --prompt "<prompt>"

还提供了一个 Streamlit 演示，支持文本到图像和图像到图像。可以通过以下命令运行演示

streamlit run demo_st.py

API 使用

API 提供对 pro 模型的访问。文档在此：docs.bfl.ml

在这个仓库中，还提供了一个简单的 Python 接口。要使用此接口，你首先需要在 api.bfl.ml 注册，并创建一个新的 API 密钥

要使用 API 密钥，可以运行 export BFL_API_KEY=<your_key_here> 或通过 api_key=<your_key_here> 参数提供。还需要按上述方式安装软件包

从 Python 使用：

from flux.api import ImageRequest      # 这将直接创建一个 API 请求，但不会阻塞直到生成完成   request = ImageRequest("A beautiful beach")   # 或：request = ImageRequest("A beautiful beach", api_key="your_key_here")      # 以下任何一个将阻塞直到生成完成   request.url   # -> https:<...>/sample.jpg   request.bytes   # -> b"..." 生成的图像字节   request.save("outputs/api.jpg")   # 将样本保存到本地存储   request.image   # -> 一个 PIL 图像

从命令行使用：

$ python -m flux.api --prompt="A beautiful beach" url   https:<...>/sample.jpg      # 生成并保存结果   $ python -m flux.api --prompt="A beautiful beach" save outputs/api      # 直接打开图像   $ python -m flux.api --prompt="A beautiful beach" image show

但由于AIGC刚刚爆火，网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化，看着看着就衔接不上了，要么内容质量太浅，学不到干货。

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》，相信大家会对AIGC有着更深入、更系统的理解。