【AI绘画】FLUX：这款新的人工智能图像生成器非常善于创造人手

置顶吴脑的键客

已于 2024-08-04 10:59:28 修改

阅读量2.8k

点赞数 24

分类专栏： AI作画文章标签： AI作画人工智能

于 2024-08-04 09:26:03 首次发布

本文链接：https://blog.csdn.net/weixin_41446370/article/details/140901737

版权

AI作画专栏收录该内容

112 篇文章

订阅专栏

FLUX.1 是 Stable Diffusion 的公开重量级继承者，可将文本转化为图像。

在这里插入图片描述
FLUX.1 dev 生成图像：“A beautiful queen of the universe holding up her hands, face in the background.”。

就在7月下旬，人工智能初创公司黑森林实验室（Black Forest Labs）宣布成立公司，并发布了第一套名为 FLUX.1 的文本到图像人工智能模型。这家总部位于德国的公司由开发了稳定扩散（Stable Diffusion）技术并发明了潜在扩散技术的研究人员创立，旨在为图像和视频创建先进的生成式人工智能。

FLUX.1 的发布是在 Stability AI 于 6 月中旬发布 Stable Diffusion 3 Medium 之后七周左右。Stability AI 的产品因在生成人体解剖图方面表现不佳而受到图像合成爱好者的广泛批评，用户在社交媒体上分享了肢体变形的例子。稳定人工智能公司的三位主要工程师罗宾-隆巴赫（Robin Rombach）、安德烈亚斯-布拉特曼（Andreas Blattmann）和多米尼克-洛伦茨（Dominik Lorenz）早些时候离职，他们后来与潜在扩散联合开发者帕特里克-埃塞尔（Patrick Esser）等人一起创建了黑森林实验室（Black Forest Labs）。

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型：高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版（"schnell "在德语中意为快速）。Black Forest Labs 声称，其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。
在这里插入图片描述

AI-generated image by FLUX.1 dev: “A close-up photo of a pair of hands holding a plate full of pickles.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: A hand holding up five fingers with a starry background.

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An Ars Technica reader sitting in front of a computer monitor. The screen shows the Ars Technica website.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: “a boxer posing with fists raised, no gloves.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An advertisement for ‘Frosted Prick’ cereal.”

在这里插入图片描述
AI-generated image of a happy woman in a bakery baking a cake by FLUX.1 dev.

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An advertisement for ‘Marshmallow Menace’ cereal.”

在这里插入图片描述
AI-generated image of “A handsome Asian influencer on top of the Empire State Building, instagram” by FLUX.1 dev.

根据我们的经验，两个更高端的 FLUX.1 模型的输出在及时保真度上一般可与 OpenAI 的 DALL-E 3 相媲美，逼真度似乎接近 Midjourney 6。与稳定版 Diffusion XL 相比，它们有了很大的改进，而稳定版 Diffusion XL 是团队在稳定版下发布的最后一个重要版本（如果不算 SDXL Turbo）。

FLUX.1 模型采用了该公司所谓的 “混合架构”，结合了变压器和扩散技术，参数扩展到 120 亿个。Black Forest Labs 称，它在以前的扩散模型基础上进行了改进，加入了流匹配和其他优化功能。

FLUX.1 在生成人类双手方面似乎很有能力，而这正是早期图像合成模型（如 Stable Diffusion 1.5）的一个薄弱环节，原因是缺乏以双手为重点的训练图像。从早期开始，其他人工智能图像生成器（如 Midjourney）也掌握了手部图像的生成，但值得注意的是，FLUX 1 的开放权重模型能相对准确地呈现各种姿势的手部图像。

我们从 GitHub 上下载了 FLUX.1 开发模型的权重文件，但它高达 23GB，无法容纳在我们 RTX 3060 显卡的 12GB VRAM 中，因此需要量化才能在本地运行（减小文件大小），据说（通过 Reddit 上的聊天）有些人已经取得了成功。

相反，我们在人工智能云托管平台 Fal 和 Replicate 上使用 FLUX.1 模型进行了实验，虽然 Fal 提供了一些免费的启动点数，但使用这些平台需要付费。

如何在消费级显卡运行Flux.1

Diffusers

pip install git+https://github.com/huggingface/diffusers.git

然后可以使用 FluxPipeline 运行模型

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", 
                                    torch_dtype=torch.bfloat16,
                                    revision="refs/pr/1",
                                   )
# 减少显存使用的方法如下
# pipe.vae.enable_tiling()
# pipe.vae.enable_slicing()
pipe.enable_sequential_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
# pipe.enable_xformers_memory_efficient_attention()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

Colab T4 运行 schnell 和 dev

参考 camenduru/flux-jupyter

git clone https://github.com/camenduru/flux-jupyter.git

可以在Colab中先尝试，再将其搬到自己的本地环境中。

注意：官方提供的flux包没有量化手段，只能用于参考，不可直接用于消费级显卡环境。苹果用户可以使用MPS，但我没有Mac，不便测试，多多谅解

最后

说到 “信任和安全”，该公司没有提到它是从哪里获得的训练数据，这些数据教会了 FLUX.1 模型如何生成图像。从我们可以用模型生成的包含受版权保护的人物形象的输出结果来看，黑森林实验室很可能使用了大量未经授权的互联网图像搜刮数据，这些数据可能是由 LAION 收集的，该组织收集的数据集用于训练稳定扩散（Stable Diffusion）。目前这还只是猜测。虽然 FLUX.1 的基本技术成就值得关注，但我们感觉该团队很可能像 Stability AI 一样，在 "合理使用 "图片搜刮的道德规范方面玩得不亦乐乎。这种做法最终可能会招致类似针对 Stability AI 的诉讼。

虽然文本到图片的生成是黑森林目前的重点，但该公司计划下一步扩展到视频生成领域，并表示 FLUX.1 将作为正在开发的新文本到视频模型的基础，该模型将与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 和 Kuaishou 的 Kling 展开竞争，按需扭曲媒体现实。"黑森林的公告称："我们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。